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TE 
经 营 的 主要 场景 ， 并 选取 最 有 代表 性 的 案例 介绍 分 析 建 模 过 程 ， 写 法 通俗 易 懂 ， 对 技术 和 业 


一 一 吴 纯 术 上 海 财经 大 学 统计 与 管理 学 院 副 院 长 


数字 化 转型 是 银行 业 未 来 十 年 的 发 展 趋势 ， 大 数据 的 分 析 与 应 用 能 力 至 关 重 要 。 本 书 系统 归纳 了 数字 化 客户 
还 有 金融 数据 挖 


有 SAS EG 和 SAS EM 这 样 的 重要 工具 ， 


务 人 员 提 升 数字 化 客户 经 营 能 力 都 很 有 帮助 。 
学 院 组 织 撰写 的 这 套 书 ， 有 SAs 编 程 的 主题 ， 


俞 章 盛 上 海 交通 大 学 教授 /博士 生 导 师 


SAS 是 统计 分 析 软 件 领域 的 标杆 ， 以 功能 强大 著称 ， 已 经 有 超过 40 年 的 历史 。 由 SAS 技 术 大 学 精英 学 


， 强 烈 推荐 ! 
能 等 多 个 领域 独树一帜 。 相 信 由 SAS 技 术 


掘 与 建 模 这 样 的 行业 应 用 ， 内 容 系统 、 立 体 、 丰 富 


者 ， 数 十 年 来 一 直 致 力 于 应 用 分 析 解 决 最 困难 的 业务 问题 ， 在 统计 分 析 、 商 业 智能 、 客 户 智能 、 数 据 管理 、 风 险 管理 、 欺 诈 与 安全 智 
提炼 出 来 ， 奉 献 给 广大 的 SAs 技 术 、 产 品 的 支持 者 和 使 用 者 们 。 
一 一 宇 传 华 武汉 大 学 教授 /博士 生 导 师 


SAS 是 全 球 分 析 领 域 的 引领 
ESTA 


一 定 能 将 SAs 的 技术 精华 和 优秀 实践 总 结 、 


大 学 官方 编写 的 系列 参考 书 ， 
这 与 SAS 公 司 与 时 俱 进 的 创新 能 力 是 分 不 开 的 。SAS 的 技术 和 产品 在 不 断 改进 ，SAS 的 教育 工作 也 一 直 


PAL 


一 定 能 再 为 SAs 教 育 工作 添砖加瓦 。 


一 杨 启 贵 华南 理工 大 学 教授 /数学 学 院 副 院 长 /博士 生 导 师 


Eg 
E 


在 开源 软件 大 行 其 道 的 今天 ， 作 为 商业 软件 ，SAS 不 仅 没 有 没落 ， 反 而 正 爆发 出 更 强大 的 生命 
多 响 力 越 来 越 大 。 他 们 出 版 的 “SAs 大 学 技术 丛书 ” 


做 得 很 好 ， 每 年 一 度 的 “高 校 SAs 数 据 分 析 大 赛 ”在 教育 界 的 


AA 
HU A 
欲 治 其 国 者 ， 先 齐 其 家 ; 欲 齐 其 家 者 ， 先 修 其 身 ; 欲 修 其 身 者 ， 先 正 其 心 ; HERC, ARAS, 欲 诚 其 意 者 ， 先 致 其 知 ;致知 在 格物 。 
一 一 一 《 礼 记 》 
一 一 王阳明 


十 之 欲 明 德 于 天 下 者 ， 先 治 其 国 ; 


知之 真切 笃 实 处 即 是 行 ， 行 之 明 觉 精 察 处 即 是 知 。 
大 数据 势不可挡 。 然 而 ， 对 于 多 数 公 司 来 说， 数据 分 析 和 建 模 能 力 尚未 完全 发 展 起 来 ， 虽 主观 意识 上 认同 了 大 数据 的 潜在 价值 ， 也 开始 采集 、 储 备 数 据 ， 却 不 知 如 何 才能 让 数据 充分 融入 业务 、 帮 助 业 
是 多 数 公 司 和 业务 领域 必须 关注 和 掌握 的 核心 能 力 。 本 书 将 聚焦 于 实践 应 用 ， 介 绍 数据 分 析 、 建 

除非 它 比 文 字 更 能 表达 内 容 。 总 体 上 ， 本 书 不 会 详细 罗列 最 热门 的 机 器 学 习 算 法 、 数 据 挖掘 方法 以 及 人 工 智 能 ， 
本 书 同时 也 是 为 掌握 统计 学 知识 和 基本 数据 分 析 方 法 的 


务 部 门 达成 业务 指标 。 
大 数据 是 一 种 全 新 的 业务 和 产品 创新 思维 ,是 海量 数据 存储 和 计算 的 基础 架构 ， 但 小 数据 的 分 析 运 用 才 
模 的 方法 和 在 业务 领域 的 实际 应 用 ， 原 理 和 基础 理论 知识 不 是 重点 ， 因 此 数学 公式 极 少 ， 8 
是 基于 金融 企业 当前 的 实际 需要 ， 精 选 最 具 代表 性 的 业务 领域 以 及 被 广泛 验证 实用 高 效 的 分 析 建 模 技 术 ， 这 些 技术 是 数据 分 析 人 员 必 须 掌握 的 技能 


业务 专家 所 写 ， 帮 助 他 们 实践 、 应 用 数据 建 模 手段 ， 提 升 对 业务 的 引导 和 驾驭 能 力 。 
高 校 学 者 和 研究 生 ， 以 及 立志 于 夯实 数据 建 模 基 本 功 ， 并 希望 不 断 提升 的 数据 挖掘 与 数据 建 模 人 员 。 


本 书 的 目标 读者 是 高 级 数据 分 析 师 、 咨 询 顾问 、 企 业内 部 的 业务 专家 
—— «v E» 


内 容 提要 
知 者 过 之 ， 思 者 不 及 也 ; 贤 者 过 之 ， 不 肖 者 不 及 也 。 
果 时 的 乐趣 以 及 对 这 个 结果 的 社会 价值 的 认识 。 
一 一 阿尔 伯 特 . 爱 因 斯 坦 


22 


Jj ^u 


在 学 校 和 生活 中 ， 工 作 的 最 重要 的 动力 是 工作 中 的 乐趣 ， 是 工作 获 和 
本 书 是 一 本 介绍 金融 企业 数据 建 模 的 专著 。 在 内 容 上 ， 书 中 以 信贷 (信用卡 ) 客户 的 生命 周期 管理 为 主线 ， 选 取 了 5 个 在 客户 获取 、 提 升 、 成 熟 和 衰退 环节 的 最 经 典 的 金融 企业 案例 ， 来 详细 介绍 最 具 人 


值 与 实用 性 的 数据 建 模 过 程 ， 每 个 案例 既 自 成 体系 又 前 后 呼应 。 
卡 ) 客户 生命 周期 管理 中 的 应 用 场景 。 
用 卡 客户 反 舱 诈 案例 ， 介 绍 了 常用 的 三 类 反 欺 诈 手 段 以 及 欺诈 评分 模型 的 构建 过 程 ， 模 型 采用 机 器 学 习 集 成 算法 的 典范 一 随机 森林 ， 并 给 出 SAs 代 码 〈 各 类 书 中 绝无仅有 ) ， 对 回归 类 、 
测 与 更 新 等 模型 构建 过 程 中 所 


D 


第 1 章 介绍 了 数据 挖掘 和 建 模 在 信贷 (fa 
变量 压缩 与 转换 、 建 模 、 模 型 评估 、 部 署 、 监 ; 


第 2 章 结合 信 
决策 树 类 、 神 经 网 络 类 三 大 类 机 器 学 习 算 法 做 了 比 对 。 
第 3 章 结合 信用 卡 客户 精准 营销 案例 ， 介 绍 了 营销 响应 模型 的 构建 、 评 佑 与 应 用 ， 完 整 前 述 从 数据 准备 、 清 洗 、 变 量 粗 筛选 、 

两 步 聚 类 算法 外 ， 还 详细 介绍 了 实际 分 析 过 程 中 必 不 可 少 的 数据 预 处 理 过 程 ， 并 对 聚 类 模型 做 了 最 完整 的 前 释 。 


涉及 的 操作 方法 。 
第 4 章 通 过 信用 卡 客户 细 分 案例 ， 介 绍 了 完整 的 聚 类 和 RRR, AU. 聚 类 

第 5 章 通过 贷款 违约 预测 案例 ， 为 零 建 模 基础 的 读者 提供 了 一 个 最 简化 的 行为 评分 模型 的 构建 过 程 ， 帮 助 零 基 础 读者 快速 上 手 ， 同 时 简单 介绍 了 金融 企业 的 三 大 风险 模型 (评分 卡 
失 预 警 与 挽留 案例 ， 介 绍 客户 价值 (数值 ) 预测 与 流失 倾向 (事件 ) 预测 两 类 问题 的 建 模 过 程 及 组 合 应 用 ， 不 拘泥 于 方法 本 身 ， 彰 显 了 以 企业 实际 运用 为 导向 的 写作 思路 ， 让 案 


性 


NaN 


结合 信用 卡 客户 流 


第 6 章 结合 信 
例 更 具 实 用 参考 价值 。 
了 解 完 五 个 案例 之 后 ， 你 会 发 现 这 些 方法 和 模型 在 大 部 分 业务 场景 中 似曾相识 ， 金 融 企 业 的 数据 挖掘 与 建 模 将 变 得 易 如 反 


全 书 由 陈 春 宝 统 稿 ， 其 中 ， 第 1、2、5、6 章 由 陈 春 宝 撰 写 ， 第 3 章 由 徐徐 刚 拟 写 ， 第 4 章 由 田 建 中 撰写 。 


源 代码 下 载 


若 你 对 书 中 源 代码 感 兴趣 ， 可 与 作者 联系 ， 邮 箱 : 64346837@qq.com。 


1.1 客户 数据 挖掘 的 价值 


金融 业 属 于 数据 密集 型 行业 ， 数 据 在 大 量 的 业务 场景 中 广泛 应 用 并 创造 着 价值 。 如 图 1-1 所 示 ， 以 美国 经 济 为 例 ， 其 金融 和 保险 业 的 大 数据 获取 能 力 和 价值 潜力 均 领 先 于 其 他 各 个 行业 。 


在 产品 同 质 化 的 市 场 环 境 下 ， 企 业 之 间 的 竞争 已 经 由 产品 品质 的 竞争 转 为 顾客 满意 度 的 竞争 ， 企 业 能 够 长 远 发 展 和 领先 市 场 的 核心 是 针对 不 同人 群 的 不 同 需求 提供 真正 差异 化 的 产品 、 服 务 以 及 营销 策 
E, 因此， 对 客户 数据 深层 次 的 挖 握 至 天 重要 。 客 户 数据 就 像 一 座 金 矿 ， 不 断 发 握 和 提炼 ， 方 能 超越 表层 价值 。 在 数据 爆炸 的 年 代 ， 人 们 经 常 置身 于 海量 信息 和 产品 之 中 ， 却 不 知道 自己 想 要 什么 。 通 过 对 
客户 数据 的 深层 次 挖掘 ， 可 以 洞察 客户 的 真实 需求 ， 获 得 超 乎 表面 数据 所 能 提供 的 价值 ， 主 要 包括 : 


举例 :美国 经 济 圆圈 大 小 代表 对 GDP 的 贡献 


公用 事业 医疗 服务 ”计算 机 和 其 他 电子 产品 
自然 资源 EE EEA ar 


| Fi FIRST 


| 
QD 金融 和 保险 


一 一 运输 和 仓储 
—— pii 


| 企业 管理 
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大 数据 : 价值 潜力 指数 * 


图 1-1 美国 各 行业 大 数据 发 展 对 比 
资料 来 源 : 麦肯锡 全 球 研究 院 。 
(1) 更 完整 的 客户 描述 


与 “以 客户 为 中 心 ”的 管理 模式 相对 应 ,企业 正 从 传统 面向 群体 的 营销 方式 转向 个 性 化 营销 方式 ， 主 动 迎合 客户 需求 ， 而 前 提 就 是 要 区 分 出 不 同 的 人 群 。 在 对 客户 更 深刻 了 解 的 基础 上 ， 进 行 深层 次 的 
分 析 ， 可 以 绘制 出 更 完整 、 更 明确 的 客户 画像 ， 营 销 与 服务 人 员 也 能 够 更 形象 地 了 解 每 一 类 人 群 。 


(2) 更 深层 次 的 客户 需求 洞察 


挖掘 客户 的 行为 习惯 和 喜好 ， 在 凌乱 纷繁 的 数据 背后 找 出 更 符合 客户 需求 的 产品 和 服务 ， 并 对 产品 和 服务 进行 针对 性 的 调整 和 优化 。 同 时 ， 能 够 围绕 客户 需求 对 客户 进行 细 分 ， 真 正 做 到 个 性 化 ， 而 非 
简单 地 划分 群体 。 


(3) 更 精细 化 的 经 营 方式 


这 里 的 经 营 包 括 营销 以 及 为 客户 提供 产品 与 服务 的 过 程 。 深 层次 挖 扎 客户 数据 能 够 帮助 企业 优化 经 营 方 案 ， 在 科学 的 客 群 细 分 基础 上 提供 有 针对 性 的 服务 与 营销 ， 从 中 获得 更 大 的 价值 。 比 如 : 在 一 定 
周期 内 向 客户 发 送 他 们 最 可 能 感 兴趣 的 产品 和 优惠 活动 ; 基于 历史 交易 记录 ， 针 对 性 地 给 他 们 推荐 商户 和 和 餐馆 优惠 活动 ， 并 根据 客户 的 回应 不 断 优化 推荐 质量 。 


无 论 是 360 客 户 视图 、 客 户 标 签 体系 ， 还 是 客户 画像 ， 都 体现 着 数据 对 更 好 地 理解 客户 需求 、 提 升 客户 体验 所 发 挥 的 有 效 价值 。 


1.3 ”最 具 代 表 性 的 数据 应 用 场景 


综合 5 个 阶段 的 核心 业务 问题 ， 反 欺诈 、 信 用 评分 、 精 准 曹 销 、 交 叉 销 售 、 客 群 细 分 、 风 险 评分 (包括 申请 、 行 为 和 催收 ) 、 客 户 挽留 管理 (多 模型 综合 应 用 ) 是 最 典型 的 数据 挖掘 与 模型 的 应 用 场景 。 
鉴于 信用 评分 与 风险 评分 方法 接近 ， 曹 销 响应 模型 可 应 用 于 交叉 销售 与 精准 曹 销 ， 因 此 本 书本 着 尽量 简约 的 原则 ， 挑 选 反 欺诈 、 精 准 营销 、 客 群 细 分 、 违 约 预测 和 挽留 管理 5 个 场景 ， 介 绍 相关 的 数据 挖掘 与 
模型 构建 过 程 。 


第 2 章 ”客户 获取 : 信用 卡 客户 欺诈 评分 案例 


诚 者 天 之 道 也 ， 思 诚 者 人 之 道 也 。 至 诚 而 不 动 者 ， 未 之 有 也 ; 不 诚 ， 未 有 能 动 者 也 。 
一 一 《苗子 . EXE» 


失足 ， 你 可 以 马上 复 站 立 ， 失 信 ， 你 也 许 永 难 挠 回 。 


富兰克林 


银行 业 有 一 句 很 著名 的 话 “ 银 行经 营 的 是 风险 ”， 可 见 风 控 能 力 对 银行 的 重要 性 。 同 样 ， 风 控 能 力 被 公认 为 互联 网 金融 公司 成 败 的 关键 ， 其 中 信用 风险 和 欺诈 风险 首当其冲 。 为 了 把 住 信用 关 、 防 止 欺 
诈 带 来 的 损失 ， 大 数据 发 挥 了 越 来 越 大 的 作用 ， 直 接 的 应 用 如 黑 名 单 查询 、 欺 诈 信 息 库 、 高 危 账户 等 服务 快速 扩展 。 然 而 ， 面 对 越 来 越 多 的 各 类 “ 坏 ” 名 单 库 ， 究 竟 这 些 信息 对 于 反 欺 诈 和 风 控 有 多 大 作 
用 ? 对 于 一 个 申请 件 或 交易 ， 各 类 信息 都 查询 一 饥 还 是 只 需要 查询 其 中 一 类 ? 评分 模型 能 够 给 出 更 多 答案 。 实 际 上 ， 最 耳熟能详 的 互联 网 金融 模式 ， 如 征 信 、 评 级 、 消 费 金 融 、 网 络 信 贷 等 ， 无 不 以 建立 在 
大 数据 之 上 的 各 类 评分 模型 为 核心 ， 其 中 尤 以 信用 评分 和 欺诈 评分 模型 最 为 “ 刚 需 ”。 本 案例 将 结合 信用 卡 欺诈 识别 的 实际 场景 介绍 基于 机 器 学 习 算 法 的 大 数据 评分 模型 。 


2.1 案例 背景 


随 着 人 们 消费 观念 的 转变 ， 透 支 和 信用 消费 越 来 越 被 大 众 接受 ， 第 三 方 支付 和 信用 卡 业务 迅速 增长 。 和 欺诈、 造假 就 如 同 信用 的 伴生 品 ， 发 生 率 也 在 逐年 增加 ， 每 年 仅 因 信用 卡 欺 诈 损失 金额 就 高 达 数 
亿 ， 其 中 70% 以 上 为 伪 卡 、 非 面对面 欺诈 等 交易 类 和 欺诈 。 可 以 说 ， 欺 诈 风 险 防范 成 为 信用 卡 以 及 第 三 方 支付 、 消 费 金融 等 互联 网 金融 产业 共同 面临 的 难题 。 


道 


一 尺 ， 魔 高 一 区， 行业 不 同 欺诈 形式 也 不 同 ， 而 欺诈 手段 更 是 不 断 推陈出新 ， 目 前 并 没有 一 种 通用 的 反 欺 诈 技术 ， 能 够 识别 并 防范 所 有 的 欺诈 。 总 体 而 言 ， 常 用 的 反 欺 诈 技 术 可 归结 为 三 类 : 


up 


1. 欺 诈 规 则 集 


通过 建立 规则 引擎 或 者 简单 的 分 类 模型 ， 对 比 欺 诈 行为 和 正常 行为 ， 归 纳 欺诈 行为 所 具有 的 个 性 化 特征 ， 以 规则 的 形式 保存 在 舱 诈 规则 集中 。 通 常 一 个 规则 集 有 几 百 或 上 干 条 规则 ， 可 以 看 作 从 大 量 坎 
诈 案例 中 提炼 出 来 的 “专家 知识 ”， 但 规则 集 的 建立 是 个 不 断 积累 的 过 程 . 
2. 评 分 模型 


采用 机 器 学 习 算法 建立 复杂 的 分 类 模型 ， 基 于 对 大 量 历史 数据 的 训练 、 学 习 ， 识 别 欺 诈 行 为 所 特有 的 模式 ， 对 个 体 (申请 人 或 交易 ) 进行 评分 ， 综 合计 算 欺 诈 概率 。 逻 辑 回 归 、 神 经 网 络 、 随 机 森林 等 
是 目前 较为 常用 的 算法 ， 这 些 算法 各 有 优 缺 点 ， 可 根据 数据 和 业务 场景 进行 选择 。 无 论 应 用 什么 算法 ， 评 分 模型 在 本 质 上 都 可 看 成 二 分 类 问题 ， 根 据 已 知 “ 欺 许 ” 和 “正常 ”标签 ， 挖 掘 出 欺诈 样 例 的 典型 
特征 和 行为 模式 ， 注 意 ， 拥 有 足够 多 的 历史 数据 是 前 提 。 


c 


3. 社 会 天 系 网 络 
适用 于 团伙 作案 的 情形 ， 构 建 个 体 关系 ， 识 别 并 防范 欺诈 团伙 。 与 评分 模型 相 比 ， 这 种 无 监督 分 析 方式 特别 适用 于 掌握 大 量 客户 信息 但 又 没有 “欺诈 ”与 “正常 ”标签 的 场景 ， 例 如 大 数据 公司 。 


《银行 信用 卡 中 心 在 对 欺诈 风险 和 反 和 欺诈 技术 做 了 充分 研究 之 后 ， 融 合 内 外 部 数据 ， 建 立 以 评分 模型 为 支撑 的 获 诈 识别 和 防范 系统 ， 以 满足 精细 化 管理 的 需要 。 评 分 模型 分 为 针对 每 个 客户 的 欺诈 评分 
和 针对 每 一 次 交易 的 欺诈 评分 ， 本 章 着 重 介绍 客户 欺诈 评分 模型 的 构建 过 程 。 


2.2 ”数据 准备 与 预 处 理 


2.2.4 ”数据 源 
营销 类 评分 模型 追求 高 的 响应 率 和 预测 的 准确 性 ， 风 险 和 欺诈 类 模型 则 追求 高 的 覆盖 度 ， 最 好 能 将 欺诈 客户 一 网 打 尽 ， 哪 怕 误 报 率 会 高 一 些 (准确 性 要 求 可 适当 降低 ) 。 更 多 的 数据 源 意 味 着 更 可 能 
面 覆 盖 欺 诈 案例 ， 发 现 各 种 形态 的 欺诈 行为 和 特征 ， 因 此 训练 欺诈 评分 模型 的 数据 量 和 变量 数 都 会 更 多 ， 除 了 信用 卡 公 司 自 有 数据 外 ， 各 种 外 部 数据 都 会 被 引进 、 尝 试 并 通过 模型 评 佑 。 


下 面 以 近 一 年 的 信用 卡 交易 信息 为 主体 ， 辅 以 三 个 月 内 网 络 行为 以 及 法 院 、 电 信 、 人 行 征 信 等 方面 的 外 部 数据 ， 以 便 尽 可 能 全 面 地 了 解 客户 ， 为 欺诈 者 画 出 负面 画像 ， 从 而 预防 欺诈 行为 的 发 生 。 具 体 
如 图 2-1 所 示 。 


e 年龄、 性别、 职业 、 工 作 年 限 、 婚 姻 状况 等 人 口 特征 


言 用 卡 持 卡 时 长 、 授 信和 额度 
ey ur cn 
e i2. HOW. 、 转 账 等 的 频次 A E 
ud e 账单 完整 度 、 还 款 情况 
& 
所 有 可 能 体现 欺诈 e [iH] Fi B. fet 
信用 卡 中 心 5 有 数 e 人 行 征 信和 查询 频次 
据 和 从 外 部 获取 的 diss 
数据 e 经 常 访问 的 网 站 类 型 
DEP 04 e 各 类 论坛 、 社 区 的 访问 活跃 度 
e .. 
e 电信 、 水 电 煤 气 等 缴费 情况 
e 法 院 执行 名 单 、 黑 名 单 


e KRA, AMRA 


图 2-1 欺诈 评分 模型 的 数据 源 


从 已 掌握 的 近 一 年 的 历史 数据 中 ， 选 取 有 欺诈 行为 的 客户 作为 坏 样 本 ， 与 正常 客户 做 对 比 。 相 对 纯粹 的 数据 公司 ， 掌 握 “ 坏 ”样本 也 是 信用 卡 公 司 和 互联 网 金融 公司 的 优势 ， 即 可 以 通过 有 监督 的 机 器 
学 习 ， 评 估 各 类 数据 对 于 反 欺 诈 的 实际 价值 ， 而 不 仅仅 是 建立 各 类 查询 信息 库 。 


222 变量 设计 


首先 是 目标 变量 Y。 如 果 客 户 在 欺诈 之 列 则 打上 标签 “1”， 否 则 打上 标签 “0” ，Y 为 二 分 类 变量 。 依 据 历 史 数据 ， 客 户 要 么 有 过 欺诈 行为 ， 要 么 没有 ， 非 0 即 1， 而 未 来 ， 客 户 是 否 会 欺诈 并 不 能 绝对 确 
定 ， 而 是 用 概率 表示 发 生 欺 诈 行 为 的 可 能 性 。 计 算出 这 个 概率 ( 即 Y= “1” 的 概率 ) 就 是 评分 模型 的 目的 。 

评分 依据 是 能 够 体现 欺诈 行为 、 与 Y 有 一 定 关系 的 一 组 客户 信息 ， 即 自 变量 X。 引 入 和 曹 销 学 中 的 RFM 模 型 (R 为 最 近 一 次 消费 间隔 时 间 ; F 为 某 段 时 间 内 消费 次 数 ，M 为 某 段 时 间 内 消费 金额 ) ， 将 各 类 行 
为 视 作 消 费 来 处 理 。 可 以 按照 客户 与 时 间 跨 度 加 工 成 若干 个 自 变 量 X， 例 如 客户 信用 卡 持 卡 时 长 、 一 年 内 信用 卡 逾 期 次 数 、 最 近 一 次 查询 人 行 征 信 距 当前 间隔 天 数 、 客 户 一 年 内 月 均 消 费 金额 、 最 
三 天 内 还 款 次 数 占 全 部 还 款 次 数 的 比例 、 客 户 一 年 内 浏览 儿童 用 品 网 站 次 数 等 ， 全 部 变量 约 1000 个 。 表 2-1 所 示 是 部 分 预测 变量 的 样 例 。 


m 
Di 
In 
a 


表 2-1 预测 变量 X (部 分 样 例 ) 


TTE ax 
T ET 
F3 当前 对 外 担保 笔 数 
F4 人 行 征 信 累 计 查询 次 数 
FS 近 一 年 信贷 审批 查询 次 数 
F6 查询 信用 卡 审批 次 数 
F7 A 类 预警 级 别 半年 内 触发 次 数 
T 累计 信贷 还 款 逾期 次 数 
F9 查询 担保 资格 审查 次 数 
F10 虚假 申请 风险 次 数 
F11 信用 卡 最 大 持 卡 时 长 
F12 B 类 预警 级 别 半年 内 触发 次 数 


(5E) 


TTE zx 
F13 合计 授信 额度 《万 ) 
F14 近 3 个 月 有 无 刑事 诉讼 
F16 当月 触发 套现 风险 次 数 
F17 当月 触发 反 欺 诈 规则 次 数 
F19 房贷 拖欠 次 数 
F20 近 3 个 月 各 类 论坛 访问 次 数 
F21 近 3 个 月 娱乐 类 论坛 访问 次 数 
F22 万 元 以 上 交易 次 数 
F23 近 6 个 月 网 上 缴费 次 数 
F24 累计 交易 关联 方 数量 
F26 累计 罚款 金额 (万 ) 
F27 客户 一 年 的 交易 次 数 
F28 信用 卡 逾 期 发 生 周 其 
F29 境外 网 站 访问 指数 
F30 一 年 内 信用 卡 与 借 记 卡 合计 交易 额 (万 ) 


按照 客户 号 准备 这 些 数据 ， 每 人 一 条 ， 最 终 形成 如 表 2-2 所 示 的 建 模 完 表 。 与 营销 响应 率 模 型 相 比 ， 欺 诈 行为 属于 稀 琉 事件 ， 很 难 做 到 像 营 销 模 型 那样 按时 间 窗 预测 ， 一 般 不 区 分 X 和 0Y 的 先后 顺序 ， 而 
是 从 大 量 历史 数据 中 归纳 欺诈 行为 的 一 般 特 征 和 规则 。 


表 2-2 欺诈 评分 模型 数据 宽 表 (Train) 


表 2-3 ”三 种 常用 分 类 算法 的 优 缺点 对 比 


算法 优点 缺点 
对 极 病 值 敏感 ， 容 易 受 到 影 啊 ; 


擅长 分 析 线 性 关系 ; 缺乏 挖掘 局 部 数据 结构 的 内 在 逻辑 能 力 ， 抓 不 
ni E 善于 把 握 全 局 规律 ， 整 体 拟 合 效果 好 住 一 些 局 部 规律 ; 


提供 每 个 观测 的 概率 或 评分 ， 应 用 灵活 为 了 获得 更 好 的 模型 效果 ， 需 要 对 大 量 的 数据 
进行 预 处 理 ， 技 术 要 求 高 
采用 递归 划分 的 方法 ， 每 次 分 析 在 分 割 好 的 节 
点 内 进行 ， 忽 略 属性 之 间 的 相关 人性; 
对 全 局 规律 的 把 握 较 差 ， 容 易 过 拟 合 ; 
将 观测 分 为 有 限 的 组 群 (节点 )， 群 内 观测 的 概 
率 与 评分 是 相同 的 ， 应 用 不 够 “和 柔性 ” 
具有 自学 习 能 力 ; 最 严重 的 问题 是 模型 “黑箱 ”， 不 能 观察 学 习 过 
采用 并 行 分 布 处 理 方法 ， 可 快速 进行 大 量 | 程 ， 输 出 结果 难以 解释 ; 
神经 网 络 ”| 运算 ; 需要 大 量 的 参数 ， 如 网 络 拓扑 结构 、 权 值 和 立 
可 以 充分 逼近 任意 复杂 的 非 线性 关系 ; 值 的 初始 值 ; 
对 噪声 数据 有 较 强 的 鲁 棒 性 和 容错 能 . 学 习 时 间 过 长 , 甚至 可 能 达 不 到 学 习 的 目的 


决策 树 类 :| 擅长 分 析 非 线性 关系 ; 
ID3, C4.5/| 能 够 深入 数据 细部 结构 ， 获 得 局 部 最 优 解 ; 
C5.0、CART、| “分 类 过 程 和 规则 可 以 展示 出 来 ， 容 易 理解 ; 
CHAID 需要 的 数据 预 处 理 较 少 ， 技 术 难 度 低 


鉴于 欺诈 行为 稀 琉 ， 属 于 小 概率 事件 ， 需 要 对 细部 数据 结构 进行 深入 挖掘 才能 发 握 欺 诈 特 征 ， 需 要 “专家 ”知识 ， 因 此 决策 树 类 算法 较为 适合 。 考 虑 到 决策 树 的 缺点 ， 单 纯 应 用 决策 树 效果 肯定 粗糙 ， 
而 由 大 量 决策 树 组 成 的 随机 森林 ， 则 兼顾 了 决策 树 探查 局 部 规律 和 Logistic 回 归 把 握 全 局 的 能 力 ， 非 常 适合 欺诈 评分 场景 。 森 林 即 很 多 棵 树 ， 随 机 则 是 指 这 些 树 彼此 独立 没有 关联 ， 随 机 森林 算法 就 是 每 次 在 
数据 集中 对 观测 样本 和 变量 分 别 做 随机 抽样 ， 构 建 出 若干 棵 决策 树 ， 最 终 组 合 使 用 每 棵 树 形成 的 规则 和 评分 。 对 于 评分 或 预测 来 说 ， 每 棵 树 可 以 看 作 一 个 特定 领域 (少数 几 个 显著 变量 ) 的 “专家 ”， 针 对 
每 个 客户 的 评分 是 所 有 “专家 ”综合 打分 的 结果 。 随 机 森林 无 须 像 决策 树 那 样 剪 校 ， 少 数 “ 专 家 ”的 打分 误差 并 不 能 左右 全 局 ， 因 此 相 比 单个 决策 树 来 说 ， 随 机 森林 模型 更 加 准确 、 可 靠 。 


由 于 随机 森林 兼 具 计 算 简单 、 建 模 速 度 快 、 结 果 容 易 解 释 、 能 够 深入 数据 局 部 、 预 测 能 力 强 等 优点 ， 综 合 性 能 优 于 套 袋 算法 、 支 持 向 量 机 、 朴 素 由 叶 斯 、 神 经 网 络 和 决策 树 等 分 类 算法 ， 目 前 被 广泛 应 
用 于 信用 评分 和 反 欺 诈 等 数据 量 大 、 响 应 率 低 的 场景 。 本 案例 选取 随机 森林 作为 评分 模型 的 算法 。 


2.3 ”构建 评分 模型 


目前 二 分 类 模型 常用 的 算法 包括 Logistic 回 归 、 神 经 网 络 和 决策 树 类 算法 ， 三 个 算法 的 优 缺 点 对 比如 表 2-3 所 示 。 


表 2-3 ”三 种 常用 分 类 算法 的 优 缺点 对 比 


对 极端 值 敏感 ， 容 易 受 到 影 啊 ; 
擅长 分 析 线 性 关系 ; 缺乏 挖掘 局 部 数据 结构 的 内 在 逻辑 能 力 ， 抓 不 
善于 把 握 全 局 规律 ， 整 体 拟 合 效 果 好 ; 住 一 些 局 部 规律 ; 
提供 每 个 观测 的 概率 或 评分 ， 应 用 灵活 为 了 获得 更 好 的 模型 效果 ， 和 需要 对 大 量 的 数据 
进行 预 处 理 ， 技 术 要 求 高 
采用 递归 划分 的 方法 ， 每 次 分 析 在 分 割 好 的 市 
点 内 进行 ， 忽 略 属性 之 间 的 相关 性 ; 
对 全 局 规律 的 把 握 较 差 ， 容 易 过 拟 合 ; 
将 观测 分 为 有 限 的 组 群 (节点 )， 群 内 观测 的 概 
率 与 评分 是 相同 的 ， 应 用 不 够 “和 柔性” 
具有 目 学 习 能 力 ; 最 严重 的 问题 是 模型 “黑箱 "”， 不 能 观察 学 习 过 
采用 并 行 分 布 处 理 方 法 ， 可 快速 进行 大 量 | 程 ， 输 出 结果 难以 解释 ; 
神经 网 络 ”| 运算 ; 需要 大 量 的 参数 ， 如 网 络 拓扑 结构 、 权 值 和 国 
可 以 充分 远近 任意 复杂 的 非 线 性 关系 ; 值 的 初始 值 ; 
对 噪声 数据 有 较 强 的 鲁 棒 性 和 容错 能 力 学 习 时 间 过 长 , 甚至 可 能 达 不 到 学 习 的 目的 


Logistic 
回归 


决策 树 类 :| 擅长 分 析 非 线性 关系 ; 
ID3, C4.5/| 能 够 深入 数据 细部 结构 ， 获 得 局 部 最 优 解 ; 
C5.0, CART,| 分 类 过 程 和 规则 可 以 展示 出 来 ,容易 理解 ; 
CHAID 需要 的 数据 预 处 理 较 少 ， 技 术 难 度 低 


鉴于 欺诈 行为 稀 琉 ， 属 于 小 概率 事件 ， 需 要 对 细部 数据 结构 进行 深入 挖掘 才能 发 握 欺 诈 特 征 ， 需 要 “专家 ”知识 ， 因 此 决策 树 类 算法 较为 适合 。 考 虑 到 决策 树 的 缺点 ， 单 纯 应 用 决策 树 效果 肯定 粗糙 ， 
而 由 大 量 决策 树 组 成 的 随机 森林 ， 则 兼顾 了 决策 树 探查 局 部 规律 和 和 Logistic 回 归 把 握 全 局 的 能 力 ， 非 常 适合 欺诈 评分 场景 。 森 林 即 很 多 棵 树 ， 随 机 则 是 指 这 些 树 彼此 独立 没有 关联 ， 随 机 森林 算法 就 是 每 次 在 
数据 集中 对 观测 样本 和 变量 分 别 做 随机 抽样 ， 构 建 出 若干 棵 决策 树 ， 最 终 组 合 使 用 每 棵 树 形成 的 规则 和 评分 。 对 于 评分 或 预测 来 说 ， 每 棵 树 可 以 看 作 一 个 特定 领域 (少数 几 个 显著 变量 ) 的 “专家 ”， 针 对 


每 个 客户 的 评分 是 所 有 “专家 ”综合 打分 的 结果 。 随 机 森林 无 须 像 决策 树 那 样 剪 校 ， 少 数 “ 专 家 ”的 打分 误差 并 不 能 左右 全 局 ， 因 此 相 比 单个 决策 树 来 说 ， 随 机 森林 模型 更 加 准确 、 可 靠 。 


由 于 随机 森林 兼 具 计 算 简单 、 建 模 速 度 快 、 结 果 容 易 解 释 、 能 够 深入 数据 局 部 、 预 测 能 力 强 等 优点 ， 综 合 性 能 优 于 套 袋 算法 、 支 持 向 量 机 、 朴 素 由 叶 斯 、 神 经 网 络 和 决策 树 等 分 类 算法 ， 目 前 被 广泛 应 
用 于 信用 评分 和 反 欺 诈 等 数据 量 大 、 响 应 率 低 的 场景 。 本 案例 选取 随机 森林 作为 评分 模型 的 算法 。 


2.3.2 ”模型 训练 


当 准 备 好 建 模 宽 表 后 ， 就 可 以 训练 模型 了 。 为 了 更 客观 地 评估 模型 效果 ， 通 常 将 数据 划分 为 两 部 分 : 一 部 分 用 来 训练 模型 ， 另 一 部 分 用 来 评估 模型 效果 。 


1) 将 建 模 数据 随机 划分 为 两 组 ， 用 变量 Group 区 分 ， 一 组 作为 训练 集 (Groupz't) ， 另 一 组 作为 验证 集 (Group-'v) ， 前 者 训练 模型 ， 后 者 的 目标 变量 置 为 缺失 ， 使 其 不 参与 模型 训练 ， 只 是 应 用 
评分 规则 打分 ， 用 于 验证 效果 。 人 在 模型 训练 过 程 中 ， 通 过 将 验证 集 的 目标 变量 置 为 缺失 值 ， 可 以 同时 实现 模型 训练 和 评分 ， 一 举 两 得 。 如 果 数 据 量 小 ， 可 以 用 这 种 方法 。 


2) 先 用 一 组 数据 训练 模型 ， 输 出 打分 代码 ， 针 对 另 一 组 数据 打分 ， 评 估 模 型 效果 。 如 果 数 据 量 大 ， 建 议 用 这 种 办 法 ， 本 案例 及 对 应 的 代码 采用 该 方法 。 


多 说 一 句 ， 当 欺诈 客户 占 比 非常 低 ， 欺 诈 样 本 可 能 不 足以 履 盖 特征 空间 和 各 类 欺诈 场景 时 ， 为 避免 模型 过 拟 合 ， 可 以 对 训练 集 采 取 欠 采样 方法 ， 从 正常 客户 中 随机 抽样 ， 使 欺诈 客户 占 比 在 5% 左 右 ， 验 
证 集 则 无 须 调 整 ， 关 于 从 采样 此 处 不 再 详 述 。 下 面 是 随机 森林 算法 核心 部 分 的 SAs 代 码 ， 各 部 分 功能 详 见 注释 。 


代码 清单 2-1 模型 训练 代码 


* 指 定 模 型 训练 后 打分 代码 存放 的 目录 ; 
$let pth=C:\Users; 


* 以 下 为 模型 训练 ; 


$macro rftrain (indat,p,outdat); 


proc contents noprint data-&indat. out-train data name; 
run; 


data train data name; 

set train data name; 

where type-1 and upcase (compress (name)) not in ( 'CSR ID','TARGET') ; 
keep name; 

run; 


$do i-1 $to &p.; 


* 每 次 随机 筛选 15 个 变量 ; 
proc surveyselect data-train data name out-var 01 sampsize-50;quit; 


proc sql ; 
select distinct name into:var separated by ' ' from var 01; 
quit; 


EUG BU 2095 33] ; 
data stepO1; 

set &indat.; 

x-ranuni (0); 

if x«-0.2; 

run; 


HERRI, criterion-entropylH3E T EREN RRR DEKA AERE Cini Rdhisbs; 
Proc split data=step01 outleaf-leaf 
outimportance-importance outtree-tree outmatrix-matrix outseq-seq 

criterion-entropy 

assess-impurity 

maxbranch-3 

maxdepth-5 

exhaustive-1000 

leafsize-30 

splitsize-30 

subtree-assessment; 

code file-"&pth.Nsas rule&ihttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17174/OEBPS/Text/..txt"; 
describe file-"&pth.Nrulefinal&ihttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17174/OEBPS/Text/..txt"; 
input &var./ level-interval; 

target target/level-binary; 

run; 

Send; 

$mend; 


* fraud train samp 是 建 模 数据 ， 训 练 1000 棵 决策 树 ， 训 练 结果 输出 到 表 score_rf; 


Ftrain(fraud train samp,1000,score rf) 


oo 
H 


运行 上 面 代码 ， 输 出 评分 规则 到 指定 文件 C: \Users\fraud_rule.txt， 同 时 产生 每 个 客户 的 欺诈 评分 ， 如 表 2-4 所 示 。Fraud 为 每 个 客户 实际 的 欺诈 标签 ，“1” 表 示 有 过 欺诈 ;Target 为 模型 训练 时 的 目 
标 变量 ， 验 证 集 全 部 置 为 缺失 值 ; Pr 是 模型 对 每 个 客户 的 欺诈 评分 。 考 虑 到 模型 或 多 或 少 存 在 过 拟 合 的 情况 ， 该 评分 结果 仅 用 于 评估 模型 的 拟 合 情 况 ， 模 型 质量 将 使 用 验证 数据 评 佑 。 


表 2-4 欺诈 评分 示例 (score rf) 


2.3.3 ”模型 评估 


由 于 随机 森林 算法 是 集合 了 成 百 上 干 个 “专家 ” (决策 树 ) 的 综合 评分 ， 每 个 “专家 ”只 选用 其 中 的 少数 几 个 变量 进行 打分 ， 因 此 很 难 评估 每 个 变量 的 显著 性 以 及 与 最 终 评分 的 函数 关系 ， 只 能 天 注 最 


终 的 评分 是 否 准 确 可 靠 。 
评分 模型 是 否 准确 可 靠 ， 需 要 使 用 验证 集 的 评分 进行 评估 ， 首 先 使 用 上 一 步骤 得 到 的 打分 代码 ， 对 验证 数据 进行 打分 。 


代码 清单 2-2 ”模型 打分 代码 


$macro rfscore (indat,p,outdat); 
$do i-1 $to &p.; 


data score &i.; 

set &indat.; 

$include "&pth.Nsas rule&ihttp://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17174/OEBPS/Text/..txt"; 
p &i.-p targetl; 

keep csr id p &i.; 

run; m E 


proc sort data-score &i.; 
by csr id; 

run; 

Send; 


proc sort data-&indat.(keep-csr id target) out-tmpl; 
by csr id; 
run; 


data &outdat.; 

merge tmpl $do i-1 $to &p.;score &i. $end;; 
by csr id; 
pr=sum (of p 1-p &p.)/&p.; 
keep csr id target pr; 
run; 


$mend; 


* 对 验证 数据 frauq valdt data 打 分 ， 结 果 输 出 到 表 score valdt; 
$rfscore(fraud valdt data,1000,score valdt); 


通过 对 验证 数据 打分 ， 生 成 每 个 客户 的 欺诈 评分 ， 结 果 输 出 到 表 score_valdt。 模 型 的 目标 是 将 欺诈 客户 锁定 在 尽 可 能 小 的 范围 内 ， 既 要 能 够 “ 抓 住 ” 尽 可 能 多 的 欺诈 客户 ， 又 要 尽量 减少 误 报 ， 因 此 识 
别 率 和 误 报 率 是 两 个 主要 的 评估 指标 。 按 照 模型 评分 Pr 对 全 部 客户 从 高 到 低 排 序 、 分 组 ， 这 里 等 分 100 组 ， 分 别 计算 每 组 的 Pr 平均 值 、 实 际 其 诈 人 数 及 其 占 比 ， 实 现代 码 如 下 ， 分 组 结果 如 表 2-5 所 示 (前 4 
列 ) 。 误 报 率 AFPR 为 各 组 累计 人 数 /累计 欺诈 人 数 ， 第 一 组 为 4 (4481/1027) 表示 每 预报 4 人 可 抓获 1 个 欺诈 客户 ; 识别 率 ADR 为 累计 欺诈 人 数 /全 部 欺诈 人 数 ， 第 一 组 为 18% (1027/5722) 表示 预报 的 
4481 人 ( 占 全 部 客户 的 1%) 中 覆盖 了 全 部 欺诈 客户 的 18%。 


代码 清单 2-3 ”模型 评估 代码 


$macro Fit(in,out,grp cnt,pred var,act var); 


data work.ttl; 
set &in; 


set work.ttl nobs-obs ; 

call symput("Base",obs/&grp cnt); 
stop; 

run; 


proc sort data-work.ttl; 
by descending &pred var; 
run; 


data work.ttl; 
N-N:; 
set work.ttl; 

format Grp2 4.0; 
Grp2-INT ( (N-1) / base) ; 
run; 


proc means data-work.ttl nway noprint; 

class Grp2 ; 

output out-&out mean(&pred var &act var)-pred evt actual evt; 
run; 


$mend; 


*fit valdt 就 是 表 2-5 前 五 列 ; 
%Fit (score valdt,fit valdt,100,pr, fraud); 


运行 上 述评 估 代 码 ， 得 到 如 表 2-5 所 示 的 前 五 列 ， 基 于 此 可 进一步 计算 误 报 率 、 识 别 率 等 具体 的 评估 指标 。 


w 


R25 识别 率 和 误 报 率 的 计算 方法 


分 组 人 数 预测 欺诈 比例 | 实际 欺诈 比例 识别 率 
Group Nbr Pr Fraud % | Ac Fraud% Fraud Nbr AFPR" ADR * 
0 448] 18% 
| asi | nB% | ns% | se | — 6 | — 289 
4481 35% 
asi | m% | s | ws | s | a 
aago | 6% | % | 34 [| 8 | 4m 
NECEM 


(5E) 


分 组 人 数 预测 欺诈 比例 | 实际 欺诈 比例 BUE AL iE XE 识别 率 
Group Nbr Pr Fraud % Ac Fraud% Fraud Nbr AFPR ADR 
L | 9 [| 16 — 
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61% 
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13% 


合计 aos | | | 3572 100% 


(DAFPR= 纵 向 累积 (Nbr) /纵向 累积 (Fraud Nbr) 
(DADR= 纵 向 累积 (Fraud Nbr) /合计 (Fraud Nbr) 


如 图 2-2 所 示 ， 横 坐标 为 误 报 率 ， 纵 坐标 为 识别 率 ， 显 然 ， 随 着 误 报 率 的 增加 识别 率 也 在 增加 ， 拐 点 出 现 得 越 早 ， 模 型 效果 越 好 。 这 里 拐点 的 识别 率 =80%， 对 应 误 报 率 为 20: 1， 也 就 是 说 ,根据 评分 
每 处 理 20 个 警报 即 可 抓获 1 个 欺诈 客户 ， 按 该 方法 可 以 预防 80% 欺 诈 事件 的 发 生 。 
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图 2-2 ”其 许 评分 模型 效果 评估 


24 评分 模型 的 应 用 


任何 评分 模型 都 不 能 完全 区 分 出 欺诈 客户 和 正常 客户 ， 误 报 在 所 难免 ， 好 的 模型 能 够 让 欺诈 客户 分 布 在 更 高 的 评分 区 间 。 从 表 2-5 中 可 以 看 出 ， 不 同 评分 组 的 欺诈 客户 所 占 比 例 和 误 报 率 存在 明显 差异 ， 
即 模型 揭示 的 高 风险 人 群 中 欺诈 客户 明显 更 多 。 反 欺诈 策略 的 关键 是 在 投入 成 本 一 定 、 保 证 服务 质量 和 客户 体验 的 前 提 下 ， 最 大 限度 减少 欺诈 损失 ， 而 预期 欺诈 损失 ( 即 欺 诈 评分 x 交 易 金额 ) 是 制定 反 欺 
诈 策略 时 最 主要 的 考虑 因素 。 信 用 卡 公司 可 将 欺诈 评分 这 个 量化 指标 ， 作 为 判别 “ 坏 ” 客 户 和 交易 欺诈 的 主要 依据 ， 根 据 不 同 的 欺诈 风险 等 级 执行 差异 化 的 交易 策略 ， 而 模型 的 显著 规则 也 可 作为 新 申请 进 
件 的 审批 策略 依据 。 


在 大 数据 支撑 和 驱动 下 ， 欺 诈 评分 模型 的 应 用 逐渐 从 批 处理 模 式 转 为 线 上 和 实时 部 署 。 综 合 应 用 欺诈 评分 及 相关 因素 进行 细 分 ， 制 定 差异 化 的 策略 并 融入 业务 流程 ， 在 交易 、 进 件 等 业务 的 必要 环节 自 
动 触 帮 批准、 拒绝 、 人 工 核对 等 策略 ， 必 将 大 量 节省 运 莒 成 本 、 有 效 降低 其 诈 损失 。 例 如 ， 对 于 此 前 欺诈 评分 高 的 客户 ， 如 果 交 易 金 额 较 高 ， 则 该 笔 交 易 自 动 进入 信用 审核 和 反 其 诈 审 核 ， 进 行 实时 评分 ， 
评分 达标 后 才 会 完成 交易 授权 ; 对 于 此 前 欺诈 评分 低 、 信 用 好 的 客户 ， 如 果 交 易 金额 不 高 ， 则 其 交易 直接 批准 ， 无 须 实时 评分 或 审核 ， 从 而 兼顾 风险 防 学 和 客户 体验 。 


25 Aa 


本 案例 介绍 了 客户 欺诈 评分 模型 的 构建 方法 ， 该 方法 也 可 用 于 构建 交易 、 申 请 等 的 欺诈 评分 模型 。 当 然 ， 目 前 并 没有 一 个 通用 的 反 和 欺诈 框架 可 以 识别 并 防范 所 有 形式 的 欺诈 ， 在 每 一 个 领域 ， 和 欺诈 都 有 
不 同 的 形式 和 特征 ， 因 而 ， 评 分 模型 的 构建 方法 通用 ， 但 不 意味 着 模型 可 以 通用 。 针 对 不 同 的 行业 和 业务 场景 ， 准 备 尽 可 能 全 面 的 数据 源 和 变量 ， 建 立定 制 化 的 欺诈 评分 模型 ， 才 能 提炼 出 有 价值 的 “ 专 


家 ”知识 。 


特别 声明 ， 本 案例 数据 仅 为 介绍 方法 而 设计 ， 并 非 真 实数 据 ， 结 论 不 可 直接 使 用 。 


第 3 章 ”客户 提升 : 信用 卡 客户 精准 言 销 案 例 
所 谓 修 身 在 正 其 心 者 ， 身 有 所 念 居 ， 则 不 得 其 正 ; AAMAR, WTAE; 有 所 好 乐 ， 则 不 得 其 正 ; 有 所 忧患 ， 则 不 得 其 正 。 心 不 在 而， 视而不见 ， 听 而 不 闻 ， 食 而 不 知 其 味 。 


一 一 《大 学 》 


你 可 以 从 别人 那里 得 来 思想 ， 你 的 思想 方法 ， 即 熔铸 思想 的 模子 却 必须 是 你 自己 的 。 


3.1 案例 背景 


目前 多 数 商 业 银行 信用 卡 业 务 对 中 间 业 务 收入 贡献 度 集中 在 10% 至 30% 左 右 ， 在 当期 整个 银行 业 利润 放 缓 的 趋势 下 ， 信 用 卡 业务 是 商业 银行 收入 的 “稳定 器 ”。 商 业 银 行 信用 卡 业 务 已 逐渐 由 重 规模 
的 “跑马 圈 地 ”向 重 质量 的 “精耕细作 ”和 转变， 借助 精准 营销 ， 同 时 实现 提升 客户 体验 、 提 高 销售 目标 ， 降 低 营 销 成 本 ， 达 到 “一 箭 三 雕 ” 的 目的 。 


3.2” 建 模 准 备 


本 章 的 任务 是 根据 分 析 目 的 从 各 类 数据 源 中 选择 数据 ， 并 对 数据 进行 基本 的 预 处 理 ， 对 于 分 类 样本 严重 偏 倚 的 情况 进行 调整 (如 参与 营销 活动 客户 较 低 、 欺 诈 客 户 占 比 较 低 ) ， 构 造 训练 集 及 数据 集 ， 
为 后 续 的 数据 挖掘 做 准备 。 


32.1 ”准备 数据 
收集 数据 之 前 要 搞 清楚 收集 什么 数据 ， 精 准 营销 模型 的 目的 是 利用 历史 数据 建立 客户 基本 情况 和 行为 特征 (预测 变量 ) 与 客户 是 否 参 加 营销 活动 (被 预测 变量 ) 之 间 的 函数 关系 ， 从 而 预测 客户 未 来 的 
行为 ， 所 以 评分 模型 的 数据 可 以 分 为 两 大 部 分 ， 一 是 模型 预测 变量 ( 自 变 量 ) 的 数据 ， 二 是 被 预测 变量 ( 因 变 量 ) 的 数据 。 
数据 按 类 别 ， 可 以 分 为 人 口 统 计 学 数据 、 行 为 数据 、 态 度数 据 ; 根据 其 来 源 可 划分 为 内 部 数据 源 、 外 部 数据 源 。 
内 部 数据 源 是 公司 自身 拥有 的 数据 ， 是 建 模 数据 的 主体 。 内 部 数据 源 包含 客户 基本 信息 数据 库 、 交 易 数 据 库 、 营 销 活动 参与 数据 库 等 。 
以 某 信用 卡 中 心 点 公司 数据 为 例 ， 可 以 分 为 如 表 3-1 所 示 的 类 型 。 
表 3-1 信用 卡 客户 的 主要 数据 类 型 
客户 名 称 、 证 件 号 (号 份 证 号 、 社 保 号 等 )、 年 上 岭 、 人 性别、 民族 、 婚 姻 状 况 、 收 入 、 工 作 单 
客户 基本 属性 | 位、 教育 程度 、 住 址 、 邮 编 、 房 屋 性 质 ( 自 有 ， 租 住 )、 联 系 方式 (手机 、 邮 箱 每 )、 是 否 拥 有 
和 车辆 
应 用 评分 、 行 为 评分 、 开 卡 时 间 、 金 卡 / 普 卡 、 信 用 额度 、 目 动 还 葡 、 员 工 标志 、 和 额度 调 
整 、 发 卡 机 构 、 收 益 率 
消费 行为 最 近 N 期 网 银 消 费 、 境 外 消费 金额 占 比 、 交 易 笔 数 、 消 费 金 额 、 消 费 笔 数 
最 近 12 个 月 逾期 还 款 期 数 、 距 最 近 一 次 逾期 的 月 数 、 距 上 次 年 费 收取 的 月 数 、 最 近 3 期 账户 
还 款 行为 逾期 月 数 、 最 近 6 期 账户 逾期 月 数 、 最 近 3 个 月 内 的 最 大 逾期 天 数 、 最 近 6 个 月 内 的 最 大 逾期 
天 数 、 最 近 3 SHERR, WA 6 HY 
图 3-1 所 示 为 某 行 信用 卡 的 申请 表 (掩盖 掉 银行 的 信息 ) 。 


外 部 数据 源 是 来 自 相关 交易 对 手 的 信息 ， 包 括 : 从 第 三 方 购买 的 数据 ; 征 信 公司 (人 民 银 行 ) 、 贵 州 大 数据 交易 所 、 第 三 方 调 研 公 司 或 者 政府 发 布 的 数据 ， 如 国家 统计 局 会 定期 发 布 相关 的 经 济 指标 信 
E; 可 以 查询 的 信息 ， 如 最 高 法 发 布 的 失信 信息 (http://www.creditchina.gov.cn/) 、 全 国企 业 信 用 信息 公示 系统 (http://gsxt.saic.gov.cn/) ; 共享 数据 ， 如 某 银 行 与 航空 公司 发 行 的 联名 卡 ， 根 据 协 
议 ， 可 以 在 保密 的 条 件 下 互 享 对 方 手中 的 部 分 客户 数据 ; 第 三 方 数据 源 ， 如 wind 数 据 库 。 


TIE VISA 信 用 卡 申 请 表 0 


标 052302 
中 文 姓名 | s 住宅 性 质 C 自 有 住房 (无 货款) C 贷款 购房 {月 还 款 X) ;与 亲属 合 住 
(BA TNR" ES) 
A EE EM 24 75 RUM 
^N "xXx 出生 EB 期 年 月 日 :住宅 地 址 省 | CNW 区 (县 ) 
| BRA O PA O NABRURASACE GME —0 "DO "T NN i 
: bcm 部 政 编码 住宅 电话 (区 号 ) (电话 号) 


证 件 号 码 | 


路 ( 街 ) 号 


单位 电话 (区 号 ) (电话 号 ) 
单位 类 别 ; ; 政府 机 关 . 事 业 单 位 


请 选择 邮寄 地 址 。 : 住宅 地 址 :单位 地 址 : : 其 他 地 址 (请 注 明 ) 
Ea LLLI d acad | 


(着 无 则 不 必 填写 ) 


OMBA NR IER) 
* 


' 护照 ”港澳 居民 往来 内 地 通行 证 .人 台 胞 证 
其 他 (请 注册 ) (与 主 卡 同时 申请 对 不 必 潮 写 ) 


EPUM. : :; |: LGS4 £54 12411 £1 附属 卡 申请 额度 与 主 卡 相同 
与 主 卡 申请 人 的 关系 配偶 : | CEMDIEIETMOR I6 t ERREUR) 


"AEIR H EERE 15A —2. 8744055 "50 EU WEN. 


£8 TAB X 


. WEM  —— BENE ”您 在 当地 建行 开 立 的 本 人 人 民 币 活期 存款 屿 户 (16 位 或 19 位 ) | PE EE Eod 
(ELEBAWRIPHTA ARUSRARUDINICIERCAGEISIEA BLA RUSINICGEERCRUL "NGENCIOGGEE | WERIOECUCURIBGACR PRIER ICACRE WCRGCTARRO 


. SBER 最 低 还 款额 还 款 您 在 当地 建行 开 立 的 本 人 美元 活期 存款 账户 ( 限 现 钞 户 ) 


图 3-1 信用 卡 申请 表示 例 
数据 收集 的 原则 ， 应 该 是 根据 成 本 与 收益 的 平衡 原则 ， 尽 量 将 与 目标 变量 具有 重要 相关 关系 的 变量 收集 。 


样本 的 选择 要 遵循 GBIE 原 则 ， 即 好 (Good) 客户 , 坏 (Bad) 客户 、 中 间 (Indeterminate) 客户 、 排 除 (Exclusion) 客户 。 坏 客户 的 定义 ， 关 键 在 于 逾期 期 数 和 表现 期 的 确定 。 排 除 客 户 ， 是 指 不 
参与 建 模 (包含 模 型 训练 和 模型 验证 ) 的 客户 ， 一 般 分 为 业务 排除 、 观 察 期 排除 和 表现 期 排除 。 中 间 客 户 就 是 不 满足 好 、 坏 客户 定义 的 非 排 除 客户 。 


在 预测 变量 和 表现 变量 的 提取 上 ， 我 们 按照 观察 期 和 表现 期 进行 划分 。 观 察 期 是 用 来 提取 预测 变量 的 时 期 ， 该 时 期 是 基于 历史 的 ， 所 以 其 各 种 行为 信息 是 模型 可 以 观察 到 的 ， 用 于 推测 未 来 表现 。 表 现 
期 是 用 来 定义 表现 变量 的 ， 定 义 好 、 坏 账户 ， 该 时 期 是 面向 未 来 的 。 观 察 期 在 前 ， 表 现 期 在 后 ， 如 图 3-2 所 示 : 


Cycle; Cycle; Cycle, Cycle; Cycle; Cycle, 
观察 窗口 


图 3-2” 建 模 观 察 期 和 表现 期 
根据 过 去 6 ~ 12 个 月 以 来 的 消费 、 取 现 以 及 还 款 行为 等 信息 ， 预 估 未 来 6 ~ 12 个 月 内 可 能 发 生 严重 拖欠 的 概率 。 


在 建立 行为 评分 模型 前 需要 选择 在 观察 期 和 表现 期 中 都 存活 的 客户 样本 。 在 选择 观察 期 的 长 度 方面 需要 综合 考虑 历史 数据 情况 和 数据 对 未 来 的 预测 能 力 。 如 果 观 察 期 的 选取 时 间 过 长 ， 不 仅 对 历史 数据 


存在 较 高 的 要 求 ， 而 且 ， 太 久 的 历史 行为 对 客户 未 来 表现 的 预测 力也 是 有 限 的。 而 如 果 选 取 的 观察 期 过 短 ， 则 很 可 能 导致 样本 数据 过 少 ， 模 型 的 预测 能 力 不 足 。 表 现 期 长 度 的 选择 与 好 坏 客户 的 定义 有 着 密 
切 的 联系 。 如 果 选 取 的 表现 期 过 长 ， 则 对 数据 的 要 求 很 高 ; 而 选取 的 表现 期 过 短 ， 则 客户 的 违约 行为 可 能 还 没有 充分 表现 出 来 ， 那 么 模型 的 准确 性 便 很 难得 到 保证 。 对 于 表现 期 的 时 间 间 隔 ， 可 以 综合 
Vintage 分 析 方 法 和 业务 的 特点 进行 确定 。 


对 于 精准 营销 客户 案例 来 说 ， 目 标 变量 的 定义 相对 比较 简单 ， 比 如 看 市 场 营销 活动 期 间 客户 是 否 有 参加 本 次 营销 活动 即 可 ， 参 与 即 为 1， 不 参与 为 0， 部 分 活动 中 可 能 要 客户 事先 注册 或 者 报名 ， 也 可 根 
据 注 册 + 购 买 行为 的 双重 条 件 来 判断 客户 是 否 参与 了 活动 。 但 是 对 于 其 他 数据 挖掘 目标 ， 定 义 就 相对 复杂 一 些 ; 如 目标 是 判定 客户 是 否 流 失 ， 最 简单 的 方式 是 看 客户 是 否 销 卡 ， 但 是 大 多 数 人 可 能 不 会 及 时 
销 卡 或 者 干脆 不 销 卡 ; 若 简单 地 以 账户 余额 是 否 为 0 作为 判断 条 件 也 不 受 ， 毕 竟 账 户 余额 是 个 动态 变化 的 过 程 。 因 此 ， 可 以 将 账户 余额 与 操作 (如 查询 ， 取 款 ， 转 账 等 ) 结合 起 来 定义 目标 变量 。 如 信用 卡 的 
风险 管控 中 判断 客户 是 否 为 好 坏 客 户 ， 不 能 简单 地 定义 为 一 旦 有 逾期 即 为 坏 客户 ， 因 为 存在 部 分 客户 忘记 还 款 的 情况 ， 并 非 真 的 违约 。 其 实 违约 一 期 的 大 部 分 客户 都 会 还 款 ， 若 将 其 定义 为 坏 客户 就 不 妥 
Js 

我 们 本 次 选取 的 数据 集 名 称 为 cardraw， 且 已 经 对 来 自 不 同 的 数据 源 数据 进行 了 初步 整合 ， 主 要 字段 如 下 ， 为 使 读者 清晰 地 了 解 整个 建 模 处 理 过 程 ， 我 们 此 处 选择 22 个 变量 用 于 后 续 的 变量 分 析 ， 其 中 1 


个 目标 变量 ，1 个 标识 变量 ，8 个 分 类 变量 ，12 个 连续 变量 ， 如 表 3-2 所 示 。 实 际 项 目 中 可 能 会 有 几 百 个 变量 ,不 过 处 理 的 思路 与 本 书 一 致 。 


表 3-2 ”Cardraw 字 上段 


序号 字段 名 含义 
l custid 客户 与 


2 es 居住 情况 (日 有 ， 租 住 、 其 他 ) 
3 Emp 束 业 情况 GEH, RA) 

4 Age 年 龄 

5 当前 住址 的 居住 时 间 (月 数 ) 
6 Edu 受 教育 程度 ，1 代表 研究 生 及 以 上 ，2 代表 本 科 ，3 代表 大 专 ，4 代表 大 专 及 以 下 
7 Car 是 否 拥有 汽车 ，1= 拥有 ，0= 不 拥有 
8 客户 收入 

9 家 庭 收 入 

10 成 为 本 行 客户 的 时 间 

T 是 否 拥有 本 行 其 他 产品 

12 刷卡 次 数 

13 平均 月 度 账 户 余额 

14 额度 使 用 率 

15 最 近 一 次 刷卡 的 距 现 在 的 月 份 
16 上 次 营销 活动 是 否 参与 

17 还 款 情况 

18 是 否 有 境外 消费 

19 日 用 品 购买 余额 

20 信用 卡 积分 

21 卡 类 型 ， 金 卡 -1， 普 卡 =0 
22 1 表示 反应 ，2 表示 不 反应 


上 述 数据 来 自 多 个 数据 源 ， 对 于 数据 集 的 横向 合并 、 纵 向 追加 等 问题 ， 这 里 不 再 袭 述 。 


32.3 ”过 度 抽样 


1. 理 论 基 础 


某 些 情况 下 ， 我 们 想 要 预测 的 事件 的 发 生 概率 非常 低 ， 如 邮递 莒 销 中 潜在 客户 的 响应 率 、 信 用 卡 客户 的 贷款 违约 率 、 电 信 客 户 流失 率 。 如 果 模 型 训练 时 为 了 优化 总 体 预 测 准确 率 ， 直 接 使 用 原始 数据 训 
练 时 的 模型 就 没有 什么 用 处 。 例 如 某 次 邮递 营销 的 响应 率 为 2%， 只 需要 简单 地 将 所 有 潜在 客户 都 判断 为 不 响应 就 能 达到 98% 的 总 体 准确 率 ， 但 这 样 的 “模型 ”没有 任何 实际 意义 。 


过 度 抽样 是 解决 上 述 问题 的 方法 之 一 。 例 如 在 直 邮 营销 中 ， 可 以 将 所 有 响应 者 的 数据 放 入 建 模 数 据 集 ， 而 对 于 非 响 应 者 的 数据 只 随机 抽取 一 部 分 放 入 建 模 数 据 集 ， 使 得 建 模 数据 集中 响应 者 达到 一 定 比 
例 (例如 1/2，1/3，1/4 等 ) 。 根 据 这 样 的 数据 集 建立 的 模型 可 识别 出 什么 样 的 客户 最 有 可 能 响应 。 


2.SAS 程 序 语法 、 实 现 及 结果 解读 


(1) SAS 程 序 语法 


proc surveyselect data=< 源 数据 集 名 > method = <srs/ urs/ sys > out=< 抽 取样 本 存放 的 数据 集 > n=< 抽 取 数 量 > (or samprate= 抽 样 比例 ) seed =n; 
strata < 指定 分 层 变量 >; 
id < 指定 抽取 的 样本 所 保留 的 源 数据 集 变量 >， 


run; 


主要 选项 说 明 : 
data 用 来 指定 数据 源 。 


method 用 来 指定 随机 抽样 方法 ， 其 中 srs 是 指 不 放 回 简单 随机 抽样 (Simple Random Samping) ; urs 是 指 放 回 简单 随机 抽样 (Unrestricted Random Sampling) ; sys 是 指 系统 抽样 (Systematic 
Sampling) 。 


seed 用 来 指定 随机 种 子 数 ， 为 非 负 整 数 ， 取 0 则 每 次 抽取 的 样本 不 同 ， 若 取 大 于 0 的 整数 ， 则 下 次 抽样 时 若 输入 相同 值 即 可 得 到 相同 的 样本 。 


n 用 来 指定 抽样 的 数量 ，samprate 适 用 于 说 明 比例 ， 如 果 存 在 多 个 类 别 ， 可 以 依次 说 明 每 层 抽 取 的 数量 ， 如 和 若 有 三 个 类 别 A，B，C， 可 以 设置 为 n= (20, 30, 40) ， 分 别 代 表 从 A 中 抽取 20 个 样本 ， 从 
B 中 抽取 30 个 样本 ， 从 C 中 抽取 40 个 样本 。 注 意 此 处 的 顺序 应 与 分 层 变 量 strata 的 顺序 一 致 。 


strata 是 分 层 变 量 ， 注 意 使 用 此 选项 前 一 定 要 排序 。 默 认 是 升序 ， 若 是 降序 ， 应 为 strata decending variable， 若 是 按照 某 种 非 升 序 或 降序 的 顺序 排序 ， 则 使 用 strata variable notsorted。 
id 指定 从 源 数据 集 复 制 到 样本 数据 集 的 变量 ， 若 缺 省 ， 则 复制 所 有 变量 。 

(2) SAS 程 序 实现 及 结果 解读 

首先 查看 数据 是 否 过 度 抽样 。 


代码 清单 3-2 Proc freq 过 程 步 统计 频次 


proc freq data-r1 
tables response; 
run; 


FREQ 过 


response #0 自分 比 — M e 


0|80300| 99.02 80300| 99.02 
1| 794| 0.98 81094| 100. 00 


从 结果 可 以 看 出 ， 对 市 场 营销 响应 的 客户 占 比 仅 为 0.98， 占 比较 低 ， 若 是 在 此 数据 集 上 建 模 ， 反 映 出 的 客户 特征 不 明显 ， 模 型 的 效果 会 受到 影响 。 
其 次 是 进行 数据 抽样 。 


代码 清单 3-3 ”数据 抽样 代码 


proc sort data-rl; 

by response; 

run; 

proc surveyselect data-rl out-r2 seed-1234  samprate-(0.01,1); 
strata response; 

run; 


程序 的 第 一 部 分 是 对 数据 集 按 照 response 升 序 排序 ， 主 要 是 为 strata 分 层 抽样 做 准备 。 


第 二 部 分 是 对 response=0 的 客户 随机 抽取 1%， 对 response=1 的 客户 全 部 抽取 ， 组 成 新 数据 集 r2。 种 子 seed 主 要 为 了 保证 读者 和 我 们 抽取 的 样本 是 相同 的 ， 实 际 建 模 中 可 以 根据 需要 决定 是 否 设 定 种 


SURVEYSELECT 过 程 


选择 方法 | 简单 随机 抽样 
Xm response 


WASE RI 


随机 数 种 子 1234 


AFAA 1597 
WHR R 


结果 显示 了 抽样 过 程 的 基本 信息 ， 如 抽样 方法 、 层 变量 、 输 入 输出 数据 集 等 。 由 结果 可 知 ， 我 们 的 数据 集中 共有 1597 个 样本 。 


3.2.4 ”构造 训练 集 及 测试 集 
1 理论 基础 
对 于 图 3-3 所 示 ， 如 果 用 直线 来 拟 合 散 点 ， 则 过 于 简单 ， 模 型 拟 合 与 预测 精度 不 够 ， 但 是 若 用 高 阶 多 项 式 曲线 来 拟 合 散 点 ， 则 过 于 复杂 ， 模 型 反映 了 数据 中 存在 过 多 的 噪声 ， 将 该 模型 运用 于 其 他 数据 集 


进行 预测 时 ， 同 样 偏差 较 大 。 如 何 掌握 好 拟 合 的 度 ， 避 免 出 现 过 拟 合 现象 (overfit) ， 是 数据 挖掘 必须 关注 的 一 个 重要 问题 。 


图 3-3 ”过 拟 合 vs 拟 合 不 够 


在 数据 挖掘 过 程 中 ， 一 般 会 将 样本 划分 为 3 个 样本 集 ， 分 别 为 训练 集 (training set) 、 验 证 集 (validation set) 、 测 试 集 (testing set) 。 不 过 在 实际 的 操作 中 ， 有 时 候 只 将 样本 划分 为 2 个 子 集 ， 即 
训练 集 和 验证 集 ， 对 于 模型 的 实践 测试 是 通过 另外 的 时 间 窗 口 的 新 数据 来 进行 测试 的 。 为 了 更 好 提取 模型 规则 ， 训 练 集 的 样本 数量 要 比 验 证 集 多 一 些 ， 经 验 参 考 值 为 50% ~ 80%。 


训练 集 和 验证 集 的 样本 都 必须 具有 代表 性 。 是 否 具 有 代表 性 可 以 通过 比较 某 个 类 在 总 体 出 现 的 比例 与 训练 集 、 测 试 集 出 现 的 比例 是 否 一 致 来 确定 ， 比 如 对 于 RES 住 房 特性 字段 ， 自 有 房屋 的 情况 没有 在 
训练 集中 出 现 ， 所 以 在 建 模 时 可 能 会 忽略 这 一 取 值 ， 从 而 导致 预测 时 模型 出 现 误差 。 解 决 这 个 问题 的 方式 就 是 分 层 抽样 。 


然而 模型 在 训练 集 进行 分 类 得 到 的 误差 率 并 不 能 很 好 反映 在 测试 集 的 性 能 上 。 如 图 3-4 所 示 : 模型 在 训练 集 上 的 误差 会 随 着 变量 数 及 模型 的 复杂 度 增加 而 逐步 减少 ， 但 是 在 测试 集 上 有 一 个 先 下 降 后 上 升 
的 过 程 。 因 此 ， 一 个 好 的 模型 在 测试 集 的 预测 表现 不 应 该 比 训练 集 的 差 太 多 。 
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图 3-4 模型 拟 合 优 度 统 计量 


在 数据 不 充足 的 情况 下 ， 如 果 仍 然 采用 上 述 的 方式 分 为 训练 集 和 验证 集 ， 只 选取 一 定 比例 的 数据 进行 建 模 ， 就 会 导致 目标 事件 数量 达 不 到 建 模 标 准 ， 而 且 如 果 验 证 数据 集 稀少 ， 模 型 的 验证 也 不 可 靠 ， 
这 时 可 以 使 用 K 折 (K-folds) 交叉 验证 法 来 解决 。 


K 折 交叉 验证 法 是 将 样本 数据 集 等 分 为 K 份 ， 任 选 其 中 K-1 份 数据 作为 训练 集 ， 剩 余 的 作为 验证 集 ， 这 样 便 会 产生 K 种 不 同 的 训练 数据 集 和 验证 数据 集 的 集合 。 如 当 K= 5 时 ， 将 数据 集 分 为 A、B、C、D、 
E 五 等 份 ， 其 中 四 份 作为 训练 集 ， 一 份 作为 验证 集 ， 如 表 3-4 所 示 。 


表 3-4 数据 集 划 分 


A 
CDEA B 
C 


EABC D 


当 K= “样本 总 个 数 ” 时 ， 就 是 “leave-one-out cross validation ”方法 ， 即 留 一 法 。 在 数据 量 比较 大 的 情况 下 ， 留 一 法 要 构建 很 多 模型 ， 会 比较 耗费 资源 。 此 时 ， 通 常会 根据 选择 较 小 的 K， 经 验 值 为 
K<=10， 常 用 的 选择 为 5 或 10。 


那样 本 量 到 底 设 置 为 多 少 合适 呢 ? 这 历来 是 一 个 争论 的 话题 ， 有 的 认为 目标 样本 (response=1) 大 于 500 就 可 以 ， 有 的 认为 至 少 1000， 这 个 没有 一 个 标准 的 答案 ， 与 样本 的 噪声 有 较 大 关系 。 
2.SAS 程 序 语法 、 实 现 及 结果 解读 

(1) SAS 程 序 语法 

proc surveyselect 可 以 实现 训练 集 和 验证 集 的 分 割 ， 主 要 是 用 到 outall 选 项 。 

outall 表 示 将 原始 数据 全 部 输出 到 out 选 项 指定 的 数据 集中 ， 并 且 添 加 标识 变量 selected，selected 的 值 为 1 代表 抽 中 的 数据 集 为 训练 集 ; 0 代表 抽 中 的 数据 集 为 验证 集 。 

(2) SAS 程 序 实现 及 结果 解读 


代码 清单 3-4 训练 集合 与 验证 集 划分 


proc surveyselect data-r2 out-r3  seed-456 samprate-0.6 outall; 
run; 
data card model card access; 
set r3; 
if selected-lthen output card model; 
else output card access; 
drop selected SelectionProb SamplingWeight; 
run; 


程序 根据 selected 的 取 值 情况 ， 分 别 输出 到 训练 集 card_model 与 测试 集 card_access。 


结果 显示 了 抽样 的 基本 信息 ， 我 们 的 训练 集 数据 集 card_model 共 有 959 个 样本 。 结 合 3.2.3 节 的 结果 ， 验 证 集 card_access 有 638 个 样本 (1597-959) , 


3.3.1 ”连续 变量 与 连续 变量 之 间 


1. 理 论 基础 
(1) Person 相 关系 数 


皮尔 逊 相关 也 称 为 积 差 相关 (或 积 矩 相关 ) ， 是 英国 统计 学 家 皮尔 逊 于 20 世 纪 提出 的 一 种 计算 线性 相关 的 方法 ， 两 变量 X，Y 间 的 皮尔 逊 相关 系数 可 通过 以 下 公式 计算 : 


Person 相 关系 数 的 变化 范围 是 -1 到 1 之 间 ， 绝 对 值 越 接近 1， 相 关 性 越 强 ; 绝对 值 越 接近 0， 相 关 性 越 弱 。Person 相 关系 数 摘 述 的 是 两 个 变量 之 间 是 线性 关系 ， 且 两 变量 是 连续 、 成 对 数据 。 两 个 变量 的 
总 体 呈 正 态 分 布 ， 或 接近 正 态 的 单 峰 分 布 。 


(2) Spearman 相 关系 数 
斯 皮尔 曼 等 级 相关 系数 是 一 种 非 参数 度量 方法 ， 用 来 估计 两 个 变量 X、Y 之 间 的 相关 性 ， 假 设 两 个 随机 变量 分 别 为 X、Y， 它 们 有 N 个 数据 对 OG, Y ， 对 其 按照 升序 或 降序 进行 排序 OG, Y) o S 


di=rank (X) -rank (Y) ， 其 中 rank (X) 表示 X 在 所 有 的 X 中 按照 升序 或 者 降序 的 秩 ，rank (Y) 表示 Y 在 所 有 Y 中 按照 升序 或 者 降序 的 秩 注意 与 X 的 顺序 保持 一 致 》，Spearman 计 算 公式 为 : 


m 


3 d: 


—-1]— 一 
N(N? -1) 


斯 皮尔 曼 等 级 相关 系数 对 两 个 变量 的 总 体 分 布 形态 、 样 本 容量 的 大 小 无 要 求 ， 对 非 线 性 相关 和 离 群 值 不 敏感 ， 但 是 无 法 捕捉 到 两 变量 之 间 非 单调 的 关系 。 取 值 的 变化 范围 及 解读 方式 同 Person 相 关系 


(3) Kendall 相 关系 数 

在 统计 学 中 ， 肯 德尔 相关 系数 是 一 个 用 来 测量 两 个 随机 变量 相关 性 的 统计 值 ， 是 以 Maurice Kendall 命 名 的 ， 并 经 常用 希腊 字母 ¢ (tau) 表示 其 值 。 肯 德尔 系数 是 一 种 非 参数 度量 方法 。 

假设 两 个 随机 变量 分 别 为 X、Y， 它 们 有 N 个 数据 对 OG, Y) 。 选 取 两 个 数据 对 OG, Y) , (Xj Y) ， 当 Xi< XHY; « YgX;» X 且 Yi> Yj， 这 两 个 数据 对 就 被 认为 是 一 致 的 ; X; < XEY; > Y 或 Xi> 
X 且 Yi<Y 时 ， 这 两 个 数据 对 被 认为 是 不 一 致 的 ， 当 出 现 Yi=Y 或 Xi=Xj， 这 两 个 数据 对 既 不 是 一 致 的 也 不 是 不 一 致 的 。 

这 里 有 两 个 公式 计算 肯 德 尔 相关 系数 的 值 。 
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其 中 C 表 示 X、Y 中 拥有 一 致 性 的 数据 对 数 (两 个 数据 为 一 对 ) ; D 表 示 X、Y 中 拥有 不 一 致 性 的 数据 对 数 。 注 意 : 这 一 公式 仅 适 用 于 集合 X 与 Y 中 均 不 存在 相同 数据 的 情况 (集合 中 各 个 数据 唯一 ) 。 


C-D 


二 


Tau—b = 


(N3— NI(N3- N2) 


注意 : 这 一 公式 适用 于 集合 X 或 Y 中 存在 相同 数据 的 情况 ， 如 果 X 或 Y 中 均 不 存在 相同 的 数据 时 ， 公 式 二 便 等 同 于 公式 一 。 其 中 C、D 与 公式 一 中 相同 ; 


WE " 

pun Wei. um 1 

N3= 二 NOV_D; N1- 5 ZUU,-1) ; N2- » V, -D 
i-] i=] 


N1 分 别 是 针对 变量 X 计 算 的 ， 计 算 过 程 为 将 X 中 的 相同 数据 分 别 组 成 小 集合 ，s 表 示 集 合 X 中 拥有 的 小 集合 数 (例如 X 包 含 数 据 : 4234153， 那 么 这 里 得 到 的 3 则 为 2， 因 为 只 有 3、4 有 相同 元 素 ) , URT 
第 i 个 小 集合 所 包含 的 数据 个 数 。N2 分 别 是 针对 变量 Y 计 算 的 ， 计 算 过 程 类 似 。 


还 有 在 此 基础 上 进行 的 tau-c 统 计量 的 计算 ， 有 兴趣 的 读者 可 以 自己 查询 相关 的 资料 。 
(4) Hoeffding 相 关系 数 
Hoeffding 相 关系 数 D (Hoeffding' s Measure of dependence) ， 可 以 探索 两 个 变量 之 前 更 广泛 的 相关 性 ， 此 相关 系数 测量 两 变量 具有 等 级 水 平时 的 相关 程度 ， 是 一 种 非 参数 度量 方法 。 


公式 : 


| 
n(n —l)(n-2)n-3)(n-4) 
其 中 D, = 2 (Q. - XQ, - 2) ; 
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D, — X (R -1)(R, - 2X8, - 1X5, -2) 5 


D, = 5 (R, -2X(S, -2XQ, -)) , 
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: X 的 秩 。Si: Y 的 秩 。 

Qi: 双 变 量 的 秩 ， 当 X 与 Y 的 值 分 别 小 于 某 一 点 Xi、Yi 时 ， 该 点 的 值 加 1。 
统计 量 的 变化 范围 为 -0.5 到 1，D 值 越 小 表示 独立 性 越 强 ， 关 联 性 越 弱 。 
综 上 所 述 ，Person 是 参数 度量 方法 ， 其 他 三 个 为 非 参数 度量 方法 。 
2.SAS 程 序 语法 、 实 现 及 结果 解读 


(1) SAS 程 序 语 法 


proc corr «XJ»; 
«var 变量 列表 >; 
«with 变量 列表 >; 
<by 变量 列表 >; 
«partial 变量 列表 >; 
run; 


proc corr 语 句 调用 corr 过 程 ， 是 必须 写 出 的 语句 ， 其 他 语句 都 是 可 选 的 ， 如 果 仪 有 proc corr 语 句 ， 则 对 输入 数据 集中 的 所 有 数值 变量 计算 Pearson 相 关系 数 和 显著 性 概率 。 
(a) proc corr 的 有 关 选 项 如 下 : 

data= 数 据 集 名 : 指定 要 分 析 的 输入 数据 集 。 

outp= 数 据 集 名 : 指定 输出 输入 数据 集 ， 内 容 是 各 变量 的 均值 、 标 准 差 、 观 测 个 数 ，Pearson 相 关系 数 的 矩 孟 。 同 理 可 以 设置 outs=，outk=，Kkouth= 选 项 。 
系统 默认 计算 Pearson 相 关系 数 ， 若 计算 其 他 相关 系数 可 以 设 定 Sypearman，Kendall，Hoeffding。 

best-n: 对 每 个 变量 只 显示 绝对 值 最 大 的 n 个 相关 系数 (降序 ) 。 

nosimple: 不 显示 变量 的 描述 性 统计 量 。 

rank: 要 求 相关 系数 按照 其 绝对 值 由 大 到 小 显示 。 

(b) var 语 句 : 

var 变 量 列表 ， 列 出 要 计算 相关 系数 的 变量 ， 此 处 是 需要 数值 变量 类 型 。 缺 省 时 ， 系 统 默认 对 所 有 数值 变量 进行 分 析 。 

(c) with 语句 : 


with 变量 列表 ， 与 var 语 句 联 用 ， 指 定 变量 组 合 ， 若 with 语句 列 出 m 个 变量 ，var 语 句 列 出 n 个 变量 ， 将 产生 m*n 的 相关 系数 矩阵 ， 若 仅 有 var 语 句 ， 则 生成 var 变 量 自身 计算 两 相关 系数 即 nn 的 方 阵 。 


(d) partial 语 句 : 


partial 变 量 列表 ， 在 此 语句 中 指定 偏 出 去 ( 即 固定 ) 的 变量 名 。 及 在 控制 此 变量 的 情况 下 ， 研 究 两 变量 之 间 的 关系 。 比 如 控制 年 龄 (age) 的 情况 下 ， 研 究 身高 (height) 和 体重 (weight) 的 关系 。 
写法 为 var height weight; partial age; 


(e) by 语句 
by 变量 列表 ， 指 定 分 组 变量 。 
(2) SAS 程 序 实现 及 结果 解读 


代码 清单 3-5 ”计算 连续 变量 间 的 相关 系数 


$let invarl=utilrate age balance confreq conp homein income points recent repay tmaddress tmbank; 


proc corr data-card model pearson spearman rank; 
var &invarl. ; 
with response; 


run; 


CORR 过 程 


response 


Uti IRate age balance confreq conp homein income points recent repay tmaddress tmbank 


xE N 均值 ”标准 差 中 位 数 ” 最 小 值 ” 最 大 值 
response |959| 0.49531| 0.50024 0| | 1.00000 
UtilRate ‘959 0.21766 | 0.26786 | 0.13000 | 1.97000 
age |959| 38.62148| 9.29428 | 37. | 
balance 959 /812.53520 906. 91142 674. 
confreq |959| 12.89260| 8.44273| 11. 
conp 1959/392. 10949 | 465. 32149 | 259. 
homein 951) 48427 | 13202 
income 951] 38617 8175 
points |959 35.84776| 16.10657 
recent |959| 7.01877| 2.51626 
repay 1959410. 28780 511. 66856. 
tmaddress 959 41.69552| 29.53175 
tmbank |959| 33.04692| 24.38776 


阅 单 统计 至 


Pearson 相关 系数 
Prob > |r| under HO: Rho=0 
观测 数 


recent| confreq points income! tmbank| homein age balance repay conp |Uti IRate | tmaddress 
-0. 56135 | -0. 56055 | -0. 45094 | -0. 17322 | -0. 15258 | -0. 10928 | -0. 09052 | 0. 07544 |0. 07278 |0. 06774| 0.05679, 0.01234 
<. 0001 <. 0001 <. 0001 <. 0001 <. 0001 0.0007, 20.0050, 0.0195, 0.0242, 0.0360; 0.0788 0. 7027 
959 959 959 951 959 951 959 959 959 959 959 959 


response 


Spearman 相关 系数 
Prob > |r| under HO: Rho=0 


观测 数 
recent confreq| points income, tmbank age! Mhomein balance repay conp |Uti IRate  tmaddress 
-0. 57812 | -0. 55111 |-0. 45944 | -0. 16797 | -0. 13048 | -0. 13009 | -0. 10523 |0. 10046 |0. 08888 0. 07490| 0.02557! 0.02357 
<. 0001 <. 0001 <. 0001 <. 0001 <. 0001 <. 0001 0. 0012| 0.0018, 0.0059, 0.0204, 0.4290 0. 4660 
959 959 959 951 959 959 951 959 959 959 959 959 


response 


corr 过 程 的 第 一 部 分 是 基本 信息 ， 表 名 设 定 为 需要 计算 相关 性 的 统计 量 。 
第 二 部 分 是 基本 的 描述 统计 量 ， 描 述 了 变量 数量 均值， 标准 差 ， 中 位 数 ， 最 小 值 ， 最 大 值 等 


第 三 部 分 是 计算 Pearson 的 相关 系数 值 ， 可 以 看 出 response 与 recent，income，tmbank，age，balance，utilrate， 根 据 P 值 检验 来 看 都 小 于 0.1， 相 关 性 较 强 。Response 与 tmaddress 相 关 性 为 


0.02798，p 值 为 0.3867， 相 关 性 较 弱 。 


第 四 部 分 是 计算 Spearman 的 相关 系数 值 ， 可 以 看 出 response 与 recent，income，age，tmbank，balance， 根 据 P 值 检验 来 看 都 小 于 0.1， 相 关 性 较 强 。Response 与 tmaddress 相 关系 数 为 0.03， 根 
据 P 值 0.3520， 相 关系 数 较 弱 。Response 与 utilrate 相 关系 数 为 0.00407，p 值 为 0.8998， 相 关 性 低 。 


综 上 统计 量 可 知 ，recent，income，tmbank，age，balance，utilrate 都 与 response 有 较 好 的 相关 性 ， 可 以 作为 后 续 建 模 的 备 选 变量 。 
只 有 两 个 相关 系数 都 比较 低 的 情况 下 ， 才 从 建 模 中 将 变量 删除 ， 若 存在 一 个 相关 系数 统计 量 认为 预测 变量 与 目标 变量 有 一 定 的 相关 性 ， 则 可 以 保留 此 变量 。 此 处 我 们 排除 tmaddress 变 量 。 


需要 特别 说 明 的 是 response 只 有 OV/1 两 种 取 值 ， 这 里 pearson 计 算 仅 供 参考 。 


3.3.2 分 类 变量 和 分 类 变量 之 间 


1. 理 论 基础 
卡 方 统计 量 的 相关 理论 
卡 方 统计 量 是 基于 卡 方 分 布 的 一 种 非 参数 检验 方法 ， 通 常 应 用 于 计数 资料 的 统计 分 析 。 


HO: 行 分 类 变量 与 列 分 类 变量 无 关联 (等 价 两 分 类 变量 之 间 的 相关 性 在 统计 学 上 不 显著 ) 


2 


其 中 ，f0 为 观察 频数 ;fe 为 期 望 频数 ; x 自由 度 为 r-1) (c1) ，[ 为 行 数 ，c 为 列 数 。 
如 表 3-5 所 示 的 内 容 为 2x2 的 和 矩阵 : 


表 3-5 2X2 的 矩阵 


response 


是 否 持 有 本 行 产 品 
m n 


KI E " 
Im x 


则 对 于 持 有 ， 参 与 单元 格 观察 频数 fo 为 a11， 


al.*a.1 


fe 期 望 为 “4 ”， 自 由 度 为 2 


x2 统 计量 描述 了 观察 值 和 和 期望值 的 相关 程度 ， 如 果 两 者 比较 接近 ， 则 计算 的 x< 比 较 小 ， 当 x2 比 较 大 时 ， 说 明 观 察 频数 和 期 望 频数 差别 比较 大 。 
理论 频数 不 宜 大 小 ， 一 般 认 为 不 宜 有 1/5 以 上 格子 的 理论 频数 小 于 5 或 有 一 个 格子 的 理论 频数 小 于 1。 若 不 满足 ， 可 以 通过 增加 样本 含量 或 者 合并 邻近 行 、 列 的 方法 以 增 大 频数 。 
特别 的 对 于 2x2 的 情况 下 ， 可 以 计算 odds 与 odds ratio, 


比 数 odds 为 发 生 比例 与 不 发 生 的 比例 的 比值 


OR (Odds Ratio) 是 两 个 比 数 的 比 ， 又 称 概率 比 、 优 比 、 优 势 比 。 


pi 
on - LP 


襄 ， 如 对 于 上 述 的 例子 ，p1 可 以 认为 “ 持 有 ”本 行 产 品 中 客户 “参与 ”概率 ，p2 可 以 认为 “不 持 有 ”本 行 产 品 中 客户 “参与 ”概率 ， 


all 
al2  alla22 
a21 al2a21 
a2 A. 


OR 范围 在 0 到 无 穷 大 之 间 ，OR=1 表 示 行 变量 与 列 变 量 没有 联系 ，OR > 1 则 表示 第 一 组 的 发 生 比 高 于 第 二 组 的 发 生 比 。 


RR (Ralative Risk) 是 两 组 数据 发 生 率 之 比 


P; 


Gamma，Kendall 相 关系 数 b，Sstuart 相 关系 数 c 和 Somers 系 数 D 适 用 于 顺序 统计 量 的 相关 性 度量 ， 若 将 数据 分 成 一 致 对 和 不 一 致 对 ， 一 致 对 即 较 大 X 对 应 较 大 的 Y， 不 一 致 对 即 较 大 X 对 应 较 小 的 Y。 
2.SAS 程 序 语法 、 实 现 及 结果 解读 

(1) SAs 程 序 语 法 

常用 语法 的 讲解 ， 放 在 数据 探索 部 分 ， 这 里 主要 讲解 chisq Measure， 程 序 是 proc freq. 


proc freq data= 数 据 集 名 < 选项 列表 > ，; 
by 分 组 变量 名 ， 
tables 分 析 变 量 < 选项 列表 > ; 
output ”out= 输 出 文件 名 称 < 选项 列表 > ， 


run; 


语句 说 明 : 

by 指定 分 组 变量 ， 对 by 变量 后 的 每 个 不 同 取 值 做 单独 分 析 。 

tables 用 来 定义 频数 表 或 交 义 表 ， 可 以 有 多 个 tables 语 句 。 当 频数 表 是 命令 tablesJOB1， 生 成 一 维 表 ， 而 命令 为 : tables JOB1*good bad， 变量 之 间 中 间 用 * 隔 开 ， 表 示 生 成 二 维 交 叉 表 。 
tables 后 的 选项 有 norow nocol nopercent， 若 只 需要 频数 ， 不 需要 各 行 各 列 的 百分比 ， 可 在 tables 后 面 加 上 这 些 参 数 。out=table， 输 出 频数 。 

chisq 为 卡 方 检验 统计 量 ， 输 出 person 卡 方 ， 似 然 比 卡 方 和 mantel-Haenszel 卡 方 ， 此 外 还 给 出 卡 方 检 验 有 关 的 关联 指标 ， 包 括 phi 系 数 、 列 联系 数 和 cramer s V， 对 于 2*2 表 给 出 fisher 精 确 检验 。 


Measure 对 每 层 的 二 维 表 计 算 一 系列 关联 指标 及 相应 的 标准 误 ， 包 括 Person 和 Spearman 相 关系 数 ， 以 及 Gamma 和 Kendall 系 数 ， 对 于 2x2 表 ， 还 给 出 相对 危险 度 (ralative risk) 及 其 标准 误 。 


Lambda 与 不 确定 相关 系数 适用 于 分 类 变量 ， 系 数 分 为 : 对 称 形式 一 一 测量 两 个 变量 间 的 关系 是 对 等 的 ， 即 无 自 变量 与 因 变 量 之 分 。 非 对 称 形式 一 一 测量 两 个 变量 间 的 关系 有 自 变 量 与 因 变 量 之 分 ，C|R 


= EAE E s EAE E 
表示 列 变量 是 因 变 量 ， 行 变量 是 自 变量 。 


Person 和 spearman 相 关系 数 仅 适 用 于 顺序 统计 量 ， 计 算 方 式 是 将 取 值 的 顺序 转化 为 数值 计算 的 顺序 。 


out= 指 定 将 结果 输出 到 数据 集 ， 主 要 输出 检验 统计 量 。 
(2) SAS 程 序 实现 及 结果 解读 


代码 清单 3-6 计算 分 类 变量 间 的 相关 系数 


data-card model out-rl; 
e; 


$5 nclassl-emp res 
proc freq data-rl order-dat 
ppm 


otherp edu car lastact conab cardtyp; 
-data; 
tables response*&inclassl./chisq expected measures; 


第 一 部 分 是 排序 ， 因 为 系统 默认 是 按照 升序 ， 而 我 们 的 例子 中 参与 是 1， 不 参与 是 0， 所 以 要 调整 下 顺序 。 


FREQ 过 程 


家 一 response * emp 
ss 

response Employed Unknown 
250 234 
219. 04 264. 96 
26. 07 24. 40 
51. 65 48. 35 
57.60 44. 57 
184 291 
214. 96 260. 04 
19. 19 30. 34 
38. 74 61. 26 
42. 40 55. 43 
434 525 
45. 26 54. 74 


统计 至 EHE fü BUE 
EH 1/16. 1424 <. 0001 
似 然 比 卡 方 检验 | 1 16. 1922 |<. 0001 
连续 调整 卡 方 | 115. 6253 <. 0001 
Mantel-Haenszel 卡 万 1 16. 1256 «. 0001 


Phi 系数 | 0. 1297 
列 联 系数 | Q. 1287 
Cramer V | 0. 1297 


Fisher 精确 检验 
单元 格 (1, 1) 频数 (F) 
AK Pr 《= F 
AM Pr >= F 


REE (P) 
X Pr <= I 


Ga 


z -0. 2370 |0. 0618 
Kendall's Tau-b -0.1195 0.0320 
Stuart's [au-c -0. 1188/0. 0319 
Somers’ D CIR — -0 1188 0.0319 
Somers’ D R|C -0.1202/0.0322 
Pear son 相关 | 0.11950. 0320 
Spearman 相关 -0.1195 0.0320 
Lambda 非 对 称 CIR 0.0140 0. 0509 
Lambda 非 对 称 R|C 0.1095 0.0457 
Lambda 对 称 0. 0642 |0. 0418 


不 确定 系数 CIR 0. 0104 | 0. 0056 
不 确定 系数 RIC 0. 0103 0. 0056 


不 人 确定 系数 对 称 0. 0104 | 0. 0056 


相对 风险 的 估计 值 Cfr 1/fr 2) 
研究 类 型 值 95% : [a PR 
MAHR (DLE) 0. 6168 0. 4772 | 0. 7972 


Cohort (Coli 风险) 0. 7653 | 0. 65631 | 0. 8832 
Cohort (Col2 风险 ) 1.2406 1.1057 1. 3920 


结果 主要 分 两 个 部 分 ， 分 别 是 交叉 频数 表 ， 卡 方 检验 ， 对 于 大 于 2x2 的 则 同时 输出 Fisher 检 验 。 以 emp 为 例 ， 该 变量 为 无 序 分 类 变量 ， 卡 方 检验 的 P 值 为 小 于 0.0001， 在 0.1 的 置信 水 平 下 ， 拒 绝 原 假 
设 ,， 认 为 emp 与 response 有 关联 关系 ，Fisher 检 验 的 P 值 为 7.406E-05， 在 0.1 的 置信 水 平 下 ， 拒 绝 原 假设 ; 优 比 为 0.6168，95% 的 置信 区 间 为 [0.4772，0.7972]， 不 包含 1， 即 说 明 优 比 与 1 有 显著 性 差异 ， 
认为 emp 与 response 有 关联 关系 。 综 上 三 项 都 说 明 emp 与 response 有 一 定 的 关联 关系 ， 可 以 作为 预测 response 的 一 个 有 用 变量 。 


同样 的 方式 ,可知 otherp，edu，lastact，conab，cardtyp 与 response 有 较 强 的 关联 性 ，res，car 与 response 的 关联 性 较 差 。 所 以 我 们 在 后 续 的 建 模 中 将 排除 res，car 两 个 变量 。 


3.3.3 ”分 类 变量 和 和 连续 变量 之 间 


1. 理 论 基础 

T 检 验 ， 也 称 学 生 检 验 ， 是 运行 1 分 布 理 论 和 假设 检验 原理 进行 样本 均值 与 总 体 均值 的 比较 ， 以 及 进行 两 样本 均值 的 比较 。 
方差 分 析 (anylysis of variance, ANOVA) 是 用 于 检验 两 组 或 者 两 组 以 上 样本 的 均值 是 否 具有 显著 差异 性 的 一 种 数理 统计 方法 
T 检 验 和 方差 分 析 的 具体 原理 可 以 参考 level1 或 者 相关 统计 学 的 书籍 。 

2.SAS 程 序 语 法 、 实 现 及 结果 解读 

(1) SAS 程 序 语 法 


对 于 比较 两 个 类 别 的 差异 ， 可 以 使 用 ttest T 检 验 过 程 ; 若 要 比较 多 个 类 别 的 差异 可 以 使 用 anova 方 差分 析 过 程 ， 如 果 不 满足 方差 分 析 的 前 提 条 件 ， 如 正 态 性 或 者 方差 齐 性 ， 可 以 使 用 NPAR1WAY 非 参数 
过 程 。 本 书 主 要 讲 ttest 与 anova 过 程 的 使 用 ， 有 兴趣 的 读者 可 以 自行 学 习 NPAR1WAY 过 程 。 


proc ttest 选项 串 ; 
class 变量 名 称 ， 
var FEAE; 
run; 


class 变 量 名 称 ， 只 能 指定 一 个 分 类 变量 ， 且 该 分 类 变量 只 能 有 两 个 不 同 的 取 值 (SEES, $c; 或 1，0 等 ) ， 此 分 类 变量 不 用 事先 排序 。 


var 变 量 名 称 串 ， 指 定 需 要 分 析 的 数值 变量 ， 若 省 略 则 默认 指 输入 文件 中 所 有 数值 变量 ( 除 class 语 句 里 提 到 的 变量 外 ) 。 


proc anova 选项 ; 
class 变量 ; 
model 因 变 量 = 因素 (@) / 选项 ， 


run; 


proc anova 语 句 中 常见 的 选项 有 data=、outstat=。 其 中 ， 选 项 data= 指 定 输入 数据 集 ， 选 项 outstat= 指 定 输 出 数据 集 ， 该 输出 数据 集 包含 自由 度 、F 统 计量 等 。 
class 语 句 必须 出 现在 model 语 名 之前， 在 class 语 句 中 ， 用 户 指定 用 于 方差 分 析 模 型 的 分 类 变量 。 


在 model 语 句 中 ， 用 户 指定 用 于 方差 分 析 的 因素 和 相应 变量 ，@ 符 号 可 以 限制 交互 作用 的 最 高 元 次 ， 例 如 AlB|CID@2 则 表示 只 需 计 算 两 两 自 变 量 相 乘 的 交互 作用 即 可 。 


class、moedl 命 令 只 能 出 现 一 次 。 
(2) SAS 程 序 实现 及 结果 解读 


代码 清单 3-7 Proc test 过 程 步 


$let invar2-utilrate age balance confreq conp homein income points recent repay tmbank; 
proct test data-card model; 

class response; 

var &invar2.; 

run; 


变星 : age 


| response N 均值 ”标准 差 标准 误差 最 小 值 最 大 值 
0 484 39.2314 8.0124| 0.3642 22 0000 125.0 
1 475|37. 7726| 9.5777|  0.4395|21.0000| 149.0 
Æ (1-2) | 1.4588 8.8225| 0.5698 ] | 


response 方法 均值 95% 利信 限 均 值 标准 差 95% 利信 限 标 准 差 
O0 39. 2314 38.5158, 39.9470, 8.0124 7.5375 8. 5517 
1 | 31.1726! 36. 9091 | 30. 0302| 9.5777 9. 0050 10. 2289 


zx (1-2) 汇总 1.4588, 0.3405, 2.5770, 8.8225, 8. 4444 9. 2363 


Æ (1-2) Satterthwaite 1.4588 0.3386 2.5789 


方差 BHIE tË Pr» |t| 
D 等 于 957| 2. 56| 0.0106 
Satterthwaite 不 等 于 | 921. 92| 2 56 0. 0108 


方法 分 子 自由 度 分 母 自 由 度 F 值 Pr >F 
Amar 474 483| 1.43 <. 0001 


输出 结果 主要 分 四 部 分 ， 分 别 是 基本 的 统计 量 、 置 信 区 间 、t 检 验 、 方 差 等 价 性 检验 。 以 age 为 例 ， 第 一 步 首 先 要 看 方差 等 价 性 检验 ，pP 值 为 小 于 0.0001， 在 0.1 的 置信 水 平 下 ， 要 拒绝 原 假 设 ， 认 为 方差 
不 等 ， 第 二 步 ， 在 t 检 验 中 选择 “方差 ” 列 “ 不 等 于 ”的 一 行 来 进行 判断 ，p 值 为 0.0108， 在 0.1 的 置信 水 平 下 ， 拒 绝 原 假 设 ， 认 为 参与 和 不 参与 的 两 个 群体 间 年 龄 有 显著 性 差异 ， 即 可 认为 年 龄 可 以 作为 区 分 
参与 或 者 不 参与 的 一 个 有 效 的 变量 。 


income (0.0001) , homein (0.0007) , tmbank («.0001) , balance (0.0197) , confreq («.0001) , UtilRate (0.0791) , recent («.0001) , conp (0.0364) , points («.0001) , rece 
在 0.1 的 置信 水 平 下 没有 显著 性 差异 。 
因此 这 里 我 们 因 变 量 response 是 二 分 类 变量 ， 为 了 展示 方差 分 析 的 用 法 ， 我 们 检验 一 下 RESs 与 income 之 间 的 关系 。 


代码 清单 3-8 Proc anova 方 差 检验 


proc anova data-card model; 
class res; 
model income-res; 

means res/hovtestwelch; 
run; 


o 
= 
c 
C 
iz 


ANOVA 过 程 


自由 度 。 平方 和 | 均 方 F ProF 
2 4592855, 2296427, 0.03 O0. 9667 
949 | 64370730675 | 67830064 
951 64375323529 


R 方 变异 系数 均 方 根 误差 income 均值 | 


0. 000071, 21. 18961 8235. 901 38867. 65 


分 布 : income 


F 0.03 
Prob > F 0.9667 


Home Owner Tenant 


ANOVA 过 程 


É Levene 方差 济 性 检验 
组 均值 的 平方 离 差 ANOVA 


EB 自由 度 | 平 万 和 KA F 值 Pr>F 
res 2|3. 263E16/ 1. 632E16, 1.586, 0. 1560 


IE 949 |8. 319E18 | 8. 766E15 


"income" ff; Welch 
E 自由 度 FË 


res 2. 0000| 0.03 
误差 379.6 


主要 输出 三 部 分 ， 一 是 方差 分 析 的 结果 ， 二 是 盒 型 图 ， 三 是 方差 齐 性 检验 的 结果 。 根 据 方 差分 析 结果 ，P 值 为 0.9667， 即 接受 原 假设 ， 认 为 REs 三 种 不 同 的 水 平 下 income 没 有 显著 性 差异 。 方 差 齐 性 的 
结果 ，P 值 为 0.1560， 满 足 方差 齐 性 的 检验 。 即 认为 RES 居 住 情况 与 收入 之 间 没 有 较 强 的 关联 关系 。 


3.3.4 ”数据 的 镑 误 及 缺失 值 


1. 理 论 基 础 
(1) 错误 值 的 识别 方法 


识别 错误 值 ， 可 以 说 既是 一 门 科 学 ， 也 是 一 门 艺术 。 一 方面 ， 可 以 根据 常识 、 业 务 规则 、 逻 辑 规 则 建立 数据 之 间 的 勾 稽 天 系 进 行 逻辑 判断 ， 例 如 个 人 收入 应 该 小 于 家 庭 收入 ， 身 份 证 应 与 出 生年 月 日 进 
行 对 应 ， 年 龄 超过 一 定 的 数值 ， 另 外 可 以 调查 业务 发 生 的 实际 情况 ， 对 特殊 情况 进行 处 理 ， 比 如 信用 卡 的 逾期 可 能 是 单纯 因为 年 费 的 拖 闪 ， 利 率 变动 导致 的 分 期 还 款 的 假 逾期 现象 ， 临 时 调整 额度 融 来 的 额 
度 使 用 率 超 过 100% ， 这 些 现象 一 方面 可 以 通过 访谈 业务 专家 获得 ， 也 可 以 通过 数据 探索 (Explore Data Analysis, EDA) 发 现 线索 。 


(2) 缺失 值 的 处 理 方式 


缺失 值 产生 的 原因 可 能 是 多 种 多 样 的 ， 比 如 由 于 数据 录入 人 员 的 失误 ， 不 同 的 数据 源 在 整合 时 无 法 找到 匹配 值 导致 的 缺失 ， 也 有 可 能 缺失 代表 的 是 “未 发 生 业 务 ”。 在 缺失 值 处 理 之 前 ， 要 弄 清楚 缺失 
值 产生 的 原因 。 要 区 分 零 与 空 的 区 别 。 缺 失 值 的 蔡 换 原则 是 用 最 可 能 的 值 填充 并 保持 变量 的 整体 分 布 状 态 。 


缺失 值 的 处 理 分 为 三 种 情况 ( 见 表 3-6) : 一 是 对 于 缺失 值 少 于 20% 情 况 ， 连 续 变量 可 以 使 用 均值 或 中 位 数 填补 ， 分 类 变量 不 需要 填补 ， 单 算 一 类 即 可 ， 或 者 用 众 数 填补 ;二 是 对 于 缺失 值 在 20% ~ 8076 
的 情况 ， 填 补 方法 同 第 一 种 ， 另 外 每 个 有 缺失 值 的 变量 生成 一 个 指示 哑 变 量 ， 参 与 后 续 的 建 模 ; 三 是 缺失 值 在 大 于 80% 的 情况 ， 每 个 有 缺失 值 的 变量 生成 一 个 指示 哑 变 量 ， 参 与 后 续 的 建 模 ， 原 始 变量 不 使 
用 。 


表 3-6 ”缺失 值 处 理 


缺失 数据 字段 填充 后 变量 缺失 值 指示 变量 


2.SAS 程 序 语法 、 实 现 及 结果 解读 

(1) SAS 程 序 语 法 

错误 值 和 缺失 值 侦 测 : 

` proc freq 用 于 对 分 类 变量 的 探测 ， 通 过 输出 变量 所 有 的 取 值 分 布 情况 ， 发 现 错误 值 ; 

` proc means 用 于 对 数值 型 变量 的 探测 ， 通 过 输出 最 大 值 ， 最 小 值 等 观测 数据 的 错误 情况 。 
错误 值 和 缺失 值 处理 : 

“ 对 于 错误 值 ， 可 以 找到 原始 数据 集 进 行 修 正 或 者 用 直接 删除 的 方式 来 处 理 ; 


: 对 于 缺失 值 ， 若 用 均值 或 中 位 数 填充 ， 则 proc stdize; 如 果 只 是 想 填 充 缺 失 值 不 进行 标准 化 ， 使 用 reponly 选 项 ; 使 用 均值 来 填充 ， 则 选择 method=mean， 中 位 数 用 median; 若 用 众 数 来 填充 ， 则 需要 通 


过 编写 宏 程 序 来 实现 ; 若 用 过 程 ptoc mi 专门 替换 缺失 值 ， 但 前 提 假 设 是 变量 服从 多 元 正 态 分 布 ， 缺 失 值 时 随机 的 。 
(2) SAS 程 序 实 现 及 结果 解读 
首先 ， 侦 测 错误 值 和 缺失 值 。 可 以 看 出 分 类 变量 的 取 值 没有 错误 值 或 缺失 值 。 


代码 清单 3-9 ” 侦 测 错 误 值 和 缺失 值 


$let inclass2-emp otherp edu lastact conab cardtyp; 
* 错 误 值 与 缺失 值 侦 测 ; 

proc freq data-card model; 

tables &inclass2./missing; 

run; 


TI UMS RE 
emp 频数 百分比 频数 百分比 


Employed 429 44.73 429 44.73 
Unknown | 530| 55.27| 959| 100.00 


otherp 频数 百分比 -—— z2H 


O 159 16.58) 159 16.58 


4 OM 0a A? ORO! 10N NN 


BE RE 
me 频数 百分比 58 百分比 


0 839 87.49| 839| 87.49 
1| 120| 12.51| 959| 100.00 


cardtyp 频数 百分比 堆积 E 


357 KC 
0 580 60.48| 580| 60.48 


然后 ， 对 错误 值 或 缺失 值 进行 甄别 。 


代码 清单 3-10 ”错误 值 或 缺失 值 甄别 


proc means data-card model n nmiss max min mean median mode max dec-2; 
var &invar2. ; 
run; 


xE N 缺失 值 个 数 


UtilRate 959 
age 959 
balance |959 
confreq |959 
conp 959 
homein |951 
income |951 
points 959 
recent |959 
repay 959 
tmbank |959 


22 0.13 0. 01 
. 62 37. 00 
. 54 393. 79 
2. 89 9. 00 
. 11 0. 00 
33069. 00 
37000. 00 
36. 00 
7.00 

0. 00 

16. 00 


.25 
. 85 
. 02 
. 29 
. 05 


88888888282 


.97| 
. 00 
|. 78 
3. 00 
. 00 
. 00 
. 00 
. 00 
. 00 
. 00 
. 00 


EFIE 


可 以 看 出 ，age 出 现 了 149 的 错误 值 ， 而 homein，income 都 有 缺失 值 。 
接 下 来 ， 分 别 对 错误 值 和 缺失 值 进行 修正 。 
代码 清单 3-11 错误 值 修正 


* 错 误 修正 ; 

proc print data-card model; 
where age»80; 

var id age; 

run; 

data card model; 

set card model; 

if id-222 then age-25; 
if id =685 then age-49; 
if id-686 then age-40; 
run; 


错误 值 较 少 的 话 ， 可 以 手动 修改 ， 也 可 以 直接 删除 ; 
对 缺失 值 进行 处 理 ， 我 们 采用 以 下 几 种 方法 : 
(a) 直接 删除 


直接 删除 有 缺失 值 的 样本 ， 这 一 方法 适用 于 缺失 值 比例 较 小 的 情况 ， 但 是 何 为 “小 ”， 有 不 同 的 说 法 ， 有 的 认为 5%， 有 的 认为 10%， 这 种 方法 有 很 大 的 局 限 性 ， 它 是 以 减少 样本 量 来 换取 信息 的 完备 ， 
会 丢弃 大 量 隐藏 在 这 些 缺 失 对 象 中 的 信息 。 当 缺失 量 比较 大 时 ， 特 别 是 当 缺 失 数据 非 随机 分 布 时 ， 这 种 方法 可 能 导致 数据 发 生 偏离 ， 从 而 得 出 错误 的 结论 。 


(b) HBE 
单 值 蔡 换 是 最 简便 的 替换 缺失 值 方法 ， 常 用 的 替换 有 三 种 选择 : 均值 、 中 位 数 、 众 数 ， 这 三 种 都 是 数据 集中 趋势 的 良好 测度 ， 均 值 适宜 用 对 称 分 布 ， 对 异常 值 比较 敏感 。 中 位 数 适用 于 异常 值 或 者 偏 分 

布 。 但 这 种 方法 会 造成 变量 的 方差 和 标准 差 变 小 。 
代码 清单 3-12 AEA 


*ÁB SEHR; 

data card modell; 

set card model; 

if income-. then  incomel1-238867.65; 
else incomel-income; 


run; 
proc stdize data-card model out-card modell outstat-inc miss 
reponly sprefix-l  oprefix-m ; 


var income; 


替换 的 相关 统计 量 要 放 入 inc_miss 数 据 集 ， 以 便 后 续 的 测试 集 能 使 用 。 
(c) 类 均值 替换 


类 均值 替换 是 使 用 其 他 变量 或 用 变量 组 的 子 组 中 的 均值 进行 替换 的 方法 ， 这 个 方法 保持 了 更 多 的 原始 分 布 。 类 均值 只 是 一 种 通俗 的 说 法 ， 可 以 选择 均值 、 中 位 数 等 ， 主 要 是 选择 与 缺失 值 最 相关 的 类 别 


变量 ， 本 例 中 选择 信用 卡 类 型 cardtyp。 


代码 清单 3-13 ”类 均值 替换 


proc means data-card model n nmiss max min mean median mode max dec-2; 
var income homein; 

class cardtyp; 

run; 


data card model2; 
set card modell; 
if income-.thendo; 

cardtyp-0 then m income-38753; 
lse m income-38409; 


lse m income-income; 

f homein-. then do; 

cardtyp-0 then m homein-48545; 
else m homein-48246; 


else m homein-homein; 
drop homein income; 
run; 


proc sort data-card model; 

by cardtyp; 

run; 

proc stdize data-card model out-card model2 outstat-inc miss 
reponly sprefix-m  method-median; 

var income homein; 

by cardtyp; 

run; 


实际 工作 中 ， 我 们 经 常 采用 这 种 方式 ， 选 择 中 位 数 来 进行 填充 ， 并 将 蔡 换 的 统计 量 存 储 到 inc_miss 中 ， 方 便 在 验证 集中 使 用 。 
(d) 回归 替换 


回归 替换 的 好 处 是 使 用 连续 变量 来 预测 缺失 变量 的 值 ， 可 以 保持 数据 的 整体 分 布 。 但 是 容易 忽视 随机 误差 ,低估 标准 差 和 其 他 性 质 未 知 的 测量 值 ， 另 外 必须 假设 缺失 值 所 在 变量 与 其 他 变量 存在 线性 关 
系 ， 有 时候 这 种 关系 是 不 存在 的 。 以 income 为 例 ， 程 序 如 下 : 


代码 清单 3-14 ”回归 替换 


proc reg data=card model outest=r3; 

miss reg: model income=utilrate age balance confreq conp 
points recent repay tmbank/ 

selection-backwargd; 
run; 

proc score data-card model score-r3 out-card tem 
type-parms predict; 
var utilrate age balance confreq conp 
points recent repay tmbank; 

run; 

data card modell; 

set card tem; 

if income-.then incomel-miss reg; 

else incomel-income; E 

run; 


第 一 段 程序 是 利用 数值 变量 对 income 进 行 回 归 ， 拟 合 出 相关 的 参数 ， 并 且 存 储 到 数据 集 r3 中 。 
第 二 段 程序 ， 使 用 R3 对 缺失 值 进行 计算 ， 生 成 变量 miss_reg。 
第 三 段 程序 是 用 回归 值 蔡 换 缺失 值 。 


本 书 中 我 们 采用 类 均值 的 形式 处 理 缺失 值 ， 即 生成 变量 homein1，income1 来 蔡 代 原来 的 缺失 变量 。 


3.3.5 ”数据 离 群 值 


1. 理 论 基 础 


在 数据 集中 偏离 大 部 分 数据 的 数据 ， 会 让 人 怀疑 这 些 数 据 的 偏离 并 非 由 随机 因素 产生 ， 而 是 产生 于 完全 不 同 的 机 制 。 但 有 两 条 基本 的 判定 规则 ， 一 是 异常 数据 与 


关于 异常 数据 ， 有 多 种 定义 ， 如 异常 是 
EA 是 异常 数据 的 数量 相对 于 正常 数据 是 否 要 少 很 多 。 


正常 数据 是 否 存 在 显著 的 差异 性 ;二 是 


ALS 
FB 
E 
T 


异常 数据 出 现 的 原因 : 测量 、 输 入 错误 或 系统 运行 错误 导致 的 ;数据 的 内 在 特性 导致 ， 如 高 管 的 收入 远 高 于 普通 员工 的 收入 ; 客户 的 异常 行为 所 致 ， 比 如 信用 卡 被 盗 刷 等 。 
如 果 不 把 噶 常 值 清理 掉 ， 对 于 数据 分 析 结 论 或 者 挖掘 模型 效果 都 会 有 比较 大 的 影响 ， 会 干扰 模型 系数 的 计算 和 评估 ， 从 而 严重 降低 模型 的 稳定 性 。 


(1) 基于 统计 的 离 群 值 


oO 


P(|X-EX|zé)<= 
2 ， 特 别 的 有 


一 般 情况 ， 数 据 都 分 布 在 其 平均 信 上 下 ， 与 平均 信 的 离散 程度 可 以 由 其 标准 差 o 反 映 。 如 果 总 体 为 一 般 总 体 ， 由 概率 统计 中 的 切 比 雪夫 不 等 式 ， 对 于 任意 的 e > 0， 有 
o? 1 
P(|X — EX| 2 30 |> —=-—=0.11 
(一 六 2) 关 955 301， 即 统计 数据 与 其 平均 值 超过 3 的 概率 不 会 超过 12%6， 于 是 可 以 将 与 平均 值 绝对 差 值 超过 3 的 作为 异常 数据 ， 特 别 对 于 正 态 分 布 ，P【|X_EX|>30) =0.0027， 即 在 服从 正 态 
分 布 情况 下 ， 若 统计 数据 与 平均 值 离 差 超过 3 的 比例 不 超过 0.27%， 因 而 可 认为 是 异常 数据 ， 根 据 概 率 论 中 的 中 心 极 限定 理 ， 大 多 数 总 体 在 统计 数据 比较 多 时 都 服从 正 态 分 布 ， 因 此 该 检测 法 在 实际 中 比较 


分 
常用 。 


统计 方法 的 优点 为 基于 坚实 的 数学 逻辑 ， 概 率 模型 一 旦 构造 ， 构 造 模型 所 需 的 数据 无 需 保 存 ， 只 需 保存 模型 的 有 关 参 数 信息 。 缺 点 一 是 该 方法 只 针对 单个 属性 ， 但 实际 中 要 求 根据 多 属性 判断 异常 值 。 
二 是 在 实际 应 用 中 ， 数 据 的 分 布 是 未 知 的 。 


从 原始 的 统计 数据 只 能 看 到 数据 绝对 数 的 大 小 ， 不 便于 比较 ， 我 们 可 以 采用 标准 化 的 形式 。 


用 变量 除 以 他 们 的 标准 误 就 可 得 到 学 生化 数值 。 

建议 的 临界 值 : |SR| > 2， 用 于 观察 值 较 少 的 数据 集 ; |SR| > 3， 用 于 观察 值 较 多 的 数据 集 。 
(2) 基于 距离 的 离 群 值 

将 离 群 值 定义 为 那些 小 于 Q1-1.51IQR 或 者 大 于 Q3+1.51IQR 的 值 ， 如 图 3-5 所 示 。 

(3) 基于 聚 类 的 离 群 值 


上 述 两 种 方法 仪 能 处 理 单 变量 ， 很 多 时 候 一 个 样本 是 否 是 异常 值 要 综合 多 个 属性 进行 判断 ， 如 下 图 中 的 A 点 ， 如 果 仪 从 年 龄 来 看 ，60 岁 不 属于 异常 值 ; 仅 从 收入 来 看 ，800 也 不 属于 异常 值 ， 但 我 们 通过 
图 3-6 所 示 发 现 ， 人 点 确实 与 其 他 点 的 行为 模式 不 同 。 所 以 说 聚 类 分 析 可 以 统筹 多 变量 取 值 来 判断 离 群 值 的 存在 。 

聚 类 分 析 依 据 是 “ 物 以 
量 的 离 群 值 ， 缺 点 是 对 于 分 


聚 ， 人 以 群 分 ”， 对 于 类 别 数 少 的 群 ， 说 明 这 些 样 本 的 行为 模式 与 其 他 存 群 在 差异 ， 即 行为 模式 存在 异常 ， 聚 类 算法 的 副产品 则 是 可 以 发 现 异常 值 。 它 的 优点 是 可 以 处 理 多 变 
变量 的 处 理 。 聚 类 分 析 常 用 的 方法 有 K-means 聚 类 ， 适 用 于 数据 量 比较 大 的 情况 ， 算 法 过 程 可 参阅 第 4 章 。 


类 
类 


< 二 一 Maximum observation 


Upper ferice (not drawn) 
1.5(IQR) above 75th percentile 


«——— Maximum observation below upper fence 


1.5(IQR) 


«——— 75th percentile (upper quartile) 


-«——— Mean 
Interquartile Range (IOR) 
-«—— — Median 


«——— 25th percentile (lower quartile) 


«—— Minimum observation 


Lower fence (not drawn) 
1.5(IQR) below 25th percentile 


图 3-5 &*H& (EN) 


图 3-6” 离 群 值 ( 聚 类 ) 
(4) 离 群 值 的 处 理 


根据 上 述 的 离 群 值 识 别 方法 ， 如 果 确 认 是 错误 的 话 ， 可 以 删除 或 者 更 正 。 如 果 是 真实 的 取 值 ， 可 以 采用 盖帽 法 来 处 理 ， 即 对 于 小 于 h-3c 的 数值 用 h-3c 来 蔡 换 ， 所 有 大 于 h+3o 的 数值 用 h+ 3 来 蔡 换 ， 其 
他 值 保 持 不 变 ， 如 图 3-7 所 示 。 


对 于 通过 聚 类 分 析 发 现 的 离 群 值 ， 可 以 用 离 它 最 近 的 类 的 中 心 值 来 代 蔡 。 


mi UH TAS AP JR 
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图 3-7 盖帽 法 处 理 离 群 值 


对 于 先 处 理 缺失 值 还 是 异常 值 的 问题 ， 存 在 异常 值 的 情况 下 若 先 用 均值 对 缺失 值 进行 替换 ， 由 于 均值 易 受 异常 值 的 影响 ， 则 可 能 替换 值 背离 了 真实 值 。 若 先 处 理 异常 值 ， 则 容易 忽略 缺失 值 提 供 的 信 


2.SAS 程 序 语 法 、 实 现 及 结果 解读 
(1) SAS 程 序 语法 


proc fastclus 为 动态 聚 类 (又 称快 速 聚 类 ) ， 以 迭代 思想 为 理论 基础 ， 先 对 样本 观测 值 进行 粗略 分 类 


proc fastclus data-tmpl maxclusters-n | radius-t maxiter- out-; 
var variables ; 
id variables ; 


data 指 定 聚 类 过 程 的 输入 数据 集 


I 


后 按 某 种 最 优 准 则 逐 


zb 


多 


改 分 类 


适用 于 观测 量 大 的 数据 ， 基 本 语法 为 : 


maxclusters=k 指 定 所 允许 的 最 大 分 类 个 数 (最 大 凝聚 点 个 数 ) ， 缺 省 时 默认 为 100。radius= 更 新 聚 类 种 子 的 阅 值 ， 若 种 子 与 前 一 个 种 子 的 聚 类 大 于 该 阅 值 ， 则 替换 种 子 ， 默 认 值 为 0。 必 须 至 


maxclusters 和 radius 中 的 一 个 。 


maxiter 为 重新 计算 种 子 类 的 最 大 进 代 次 数 ， 缺 省 时 为 1， 即 样本 初始 分 类 。 


out 指 定 过 程 输出 的 数据 集 ， 该 数据 集 不 仪 包含 原 数据 中 的 变量 ， 还 包含 新 生成 的 变量 cluster (观测 所 属 的 类 别 ) 以 及 distance to cluster seed (当前 观测 值 与 该 类 中 心 之 间 的 距离 ) 。 


(2) SAS 程 序 实 现 及 结果 解读 
(a) 异常 值 识别 (基于 标准 差 来 判断 异常 值 ， 以 balance 为 例 ) 


代码 清单 3-15 ”异常 值 识别 


proc means data-card modell noprint; 
var balance; 

outputout-means (drop- type freq ) 
mean-m bal 

std-s bal; 

run; 


data w1; 
set card modell(keep-id balance); 
if n = 1 then set means; 
if balance lt m bal- 2*s bal or 
balance gt . m bal + 2*s | bal ; 
drop m bal s bal; 
run; 


第 一 段 程序 是 实现 计算 balance 的 均值 和 标准 差 。 

第 二 段 程序 借助 双 set 语 句 ， 实 现 筛 选 ， 筛 选 条 件 为 与 均值 的 距离 等 于 两 个 标准 差 以 上 。 
运行 程序 后 ， 共 筛选 出 8 个 异常 值 。 

(b) 基于 极 差 来 判断 


代码 清单 3-16” 极 差 计算 


proc means data=card modell noprint; 

var balance; 

output out-tmp ql-Lower q3-Upper range-Iqr; 
run; 


data w2; 

set card modell(keep-id balance); 

if n = lthen set tmp; 

if balance le Lower - 1.5*Igr or 
balance ge Upper -*1.5*Iqr; 


run; 


第 一 段 程序 是 实现 计算 balance 的 下 四 分 位 数 ， 上 四 分 位 数 ， 四 分 位 距 。 


第 二 段 程序 借助 双 set 语 句 ， 实 现 第 选 ， 筛 选 条 件 为 小 于 下 四 分 数 1.5 个 四 分 位 距 或 者 大 于 上 四 分 位 数 1.5 个 四 分 位 距 。 


运行 程序 后 ， 共 筛选 出 19 个 异常 值 。 


代码 清单 3-17 ”快速 聚 类 


%let invar3-utilrate age balance confreq conp m homein m income points recent repay tmbank; 


proc fastclus data-card modell maxc-8 maxiter-1 out-w3 1 ; 
var&invar3.; = = 

run; 
proc freq data-w3 1; 
table cluster; 

run; 


少 定 


定义 


RR 


CLUSTER 频数 百分比 


/6 
118 
I 


2 
3 
4 
J 
6 
7 
8 


第 一 段 程序 是 实现 快速 聚 类 ， 设 置 最 多 可 以 聚 为 8 类 ， 为 加 快速 度 ， 只 循环 一 次 。 
第 二 段 程序 是 输出 没 类 别 的 个 数 。 

从 运行 结果 可 以 看 出 3，7，8 类 中 数量 较 少 ， 有 可 能 为 异常 值 。 

(d) 极端 值 的 处 理 (以 基于 统计 发 现 的 离 群 值 为 例 ) 


代码 清单 3-18 ”极端 值 的 处 理 


7. 92 
12. 30 
0. 73 
7. 19 
30. 87 
39. 62 
1. 15 
0. 21 


76 
194 
201 
210 
566 
946 
957 
959 


zp EE 
频数 百分比 


7. 92 
20. 23 
20. 96 
28. 15 
59. 02 
38. 64 
99. 79 


100. 00 


$macro extre (indataset,invar,outvar,mapdata); 
其 中 inqataset 为 输入 数据 集 

Invar 为 输入 变量 

Outvar 是 输出 变量 

Mapdata 为 离 群 值 的 maping 关 系 

Sextre(card model2,balance,balance e,extr balance); 
$extre (card model2,m homein,m homein e,extr homein); 
Sextre (card model2,m income,m income e,extr income); 
Sextre(card model2,utilrate,utilrate e,extr utilrate); 
$extre (card model2,age,age e,extr age); i 


Sextre (card model2,confreq,confreq e,extr confreq); 
Sextre (card model2,conp,conp e,extr conp); 
Sextre (card model2,points,points e,extr points); 


Sextre(card model2, recent, recent e, extr recent); 
$extre (card model2, repay, repay e,extr repay); 
Sextre (card model2,tmbank,tmbank e,extr tmbank); 


判断 条 件 是 否 是 异常 值 ， 如 果 是 则 进行 截断 ， 否 则 (为 正常 值 ) 不 用 变化 。 


同 理 对 于 其 他 数值 变量 也 可 以 操作 ， 处 理 如 表 3-7 所 示 。 


表 3-7 “异常 值 处 理 


3.3.6 


jms mm 


重 编码 


1. 理 论 基础 


3 TIN 
5 age age c 


字符 类 型 变量 重 编码 : 有 些 SAS 过 程 不 能 直接 处 理 字符 型 变量 ， 即 使 可 以 处 理 ， 过 程 也 比较 烦琐 ， 因 此 在 数据 分 析 之 前 ， 需 要 进行 编码 转换 ， 比 如 性 别 变量 ， 取 值 为 “ 男 ” 或 “ 女 ”， 则 需要 相应 编码 


为 0 和 1。 


编码 的 规则 要 记录 在 模型 的 文档 中 ， 便 于 后 续 模 型 的 解读 和 更 新 。 此 处 有 个 问题 ， 是 先 编码 还 是 先进 


行 变 量 


的 处 理 ， 如 果 变 量 较 少 的 话 ， 读 者 可 以 先行 编码 ; 


较 大 ， 可 以 在 不 影响 变量 处 理 的 情况 下 ， 暂 时 不 编码 。 如 果 模 型 的 缺失 值 还 没有 处 理 ， 缺 失 值 是 否 作为 单独 一 类 还 是 需要 蔡 换 还 未 可 知 。 


2.SAS 程 序 语 法 、 实 现 及 结果 解读 


(1) SAs 程 序 语法 


Proc format 


Options fmtsearch- (R) 宏 的 搜寻 顺序 ， 则 搜寻 顺序 为 work，Library，R 


若是 Options fmtsearch= (R work library) ， 则 搜寻 顺序 为 R，work，library 


若是 Options fmtsearch- (R library) ， 则 搜寻 顺序 为 R，library，work 


(2) SAS 程 序 实现 及 结果 解读 


(a) 哑 变 量 的 形式 


EI — pus 
AES 


量 较 多 ， 先 行 编码 的 工作 量 就 会 比 


data 


set rl; 
emp 1-0* (emp-"Unknown") +1* (emp-"Employed"); 


run; 


也 可 以 使 用 if then 的 形式 或 者 select 的 形式 。 这 种 适用 于 变量 较 少 的 情况 。 


(b) proc format 


代码 清单 3-19 ”保存 宏 到 逻辑 库 


proc 


format lib-r; 


invalue empf 


"Unknown"-0 


run; 


options fm 


"Employed"-1 


tsearch-(r work library); 


data card model4; 
set card model3; 


emp 


drop 


run; 


f-inpu 


emp; 


t (emp, empf. 


) 7 


这 样 就 将 安保 人 存 到 我 们 的 逻辑 库 ， 后 续 就 可 以 用 于 对 测试 集 的 编码 。 


34 ”变量 压缩 与 转换 变量 


3.4.1 


分 类 变量 的 水 平 数 压缩 


1. 理 论 基 础 


(1) 哑 变 量 的 转换 方法 


最 后 一 个 哑 变 量 不 放 入 模型 中 ， 默 认 作 为 对 照 组 。 

在 SAS 的 proc logistic 过 程 中 是 自动 创建 哑 变 量 的 ， 分 为 reference 和 ，effect 两 种 ， 但 在 一 般 线 性 回归 中 ， 需 要 自己 定义 哑 变 量 。 

当 名 义 变量 的 类 别 数 大 于 12 个 ， 降 低 基数 就 变 得 非常 必要 ， 有 三 种 方法 : 

一 是 将 相同 含义 的 类 别 合 并 ， 基 于 各 类 别 变量 的 含义 易于 解释 和 判断 ， 由 于 没有 考虑 目标 变量 和 被 合并 的 类 别 之 间 的 关联 性 ， 可 能 会 导致 预测 力 降 低 。 
二 是 将 频次 少 的 水 平 简单 的 合 为 一 类 ， 看 上 去 简单 粗暴 ， 但 是 精度 降低 不 大 ， 问 题 水 平 数 依然 不 少 。 

三 是 根据 每 个 水 平 Y=1 的 占 比 ， 将 值 接近 的 划分 为 一 类 ， 可 以 通过 快速 聚 类 过 程 完成 。 


压缩 之 后 的 分 类 变量 还 是 会 生成 若干 个 哑 变 量 。 从 道理 上 将 ， 在 后 续 建 模 中 ， 由 一 个 分 类 变量 生成 的 哑 变 量 要 么 同时 在 模型 中 ， 要 么 都 不 在 模型 中 。 但 是 在 模型 选择 变量 时 不 能 满足 这 个 要 求 ， 因 此 较 
变量 


JJ 
好 的 方法 是 将 分 类 变量 转换 为 连续 变量 。 
(2) WOE 的 计算 


WOE (Weight Of Evidence) 多 译 为 证 据 权 重 ，IV (Information Value) 译 为 信息 值 ， 一 个 变量 的 总 预测 能 力 可 以 通过 |V 来 衡量 ， 它 是 该 变量 的 各 个 属性 的 WOE 的 加 权 总 和 ， 代 表 了 该 变量 区 分 目 
标 变量 的 事件 与 非 事件 的 能 力 ， 如 表 3-8 所 示 。 


表 3-8 WOE 计 算 
在 当前 居住 地 时 间 (月 ) 


| € 
um noe [Eemi 


WOE = Log (%Good/%Bad) 
IV sum=sum{ ($Good - $Bad) * WOE} 


目标 -去 除 没有 预测 性 的 变量 (使 用 IV 大 小 来 判断 ) 。 小 于 0.02， 无 预测 力 ; 0.02280.1, 35507355; 0.1 至 0.3 预 测 力 中 等 ， 大 于 0.3 预 测 力 强 。 
2.SAS 程 序 语 法 、 实 现 及 结果 解读 

(1) SAS 程 序 语 法 

可 以 使 用 proc freq 过 程 计 算 频 数 分 布 。 

(2) SAS 程 序 实 现 及 结果 解读 


(a) 计算 类 别 频数 的 分 布 情况 


以 edu 为 例 ， 分 析 存 在 多 类 别 的 情况 。 


代码 清单 3-20 “计算 类 别 频 数 


proc freq data-card model5; 
table response*edu; 
run; 


FREQ 过 程 


ak - response * edu 


response 1 
| | 

| 188 
19. 60 
| 3o. 94 


40. 17 |31. 62 


280 
29 20| 9. . 53 
58. 95/19. 58/11. 16 
59. 8368. 38 |34. 42 


468| 136| 154| 201| 959 
48. 80/14. 18/16. 06 20. 96100. 00 


可 以 看 出 edu 的 每 个 类 别 中 response=1 的 比例 分 别 为 59.83%，68.38%，34.42%，24.38% 差 别 还 比较 大 ， 若 是 某 两 个 或 几 个 类 别 差别 小 就 可 以 合并 了 。 要 注意 的 是 ， 对 这 种 顺序 统计 量 ， 只 能 是 相 邻 
类 进行 合并 ， 不 可 跨 类 合并 。 


(b) 计算 WOE 和 IV 
我 们 使 用 宏 CalcWOEIV 来 计算 类 别 变量 的 WOE 和 IV 指 ， 宏 CalcWOEIV 共 有 4 个 参数 。 


代码 清单 3-21 计算 WOE 和 IV 


$macro CalcWOEIV (dsin, ivvar, dvvar, dsout); 

$macro CalcWOEIV (dsin, ivvar, dvvar, newvar,woemap,dsout); 
/**dsin 表 示 输 入 数据 集 ; 

/*ivvar 表 示 自 变量 */ 

/*dvvar 表 示 因 变量 */ 

newvar 表 示 WOE 转 换 后 的 变量 名 称 

woemap 表 示 ijvvar 变 量 的 mapping 关 系 

/*dsout 表 示 输 出 数 

计算 edu 的 宏 程 序 调用 形式 为 : 


data C1; 

set card model4; 

keep id response &inclass3.; 
run; 


SCalcWOEIV(Cl, emp f, response,emp woe,woe emp,C2); 
SCalcWOEIV(C2, otherp, response,otherp woe,woe otherp,C3); 
SCalcWOEIV(C3, edu, response,edu woe,woe edu,C4); 


生成 售 有 WOE 取 值 的 变量 ， 是 原 变量 加 后 缀 woe， 用 ivvar Woe 表示 ， 如 edu_woe ( 见 表 3-9) 。 


表 3-9 WOE 转 换 后 变量 命 


名 


生成 名 义 变量 取 值 和 WOFE 值 之 间 的 对 应 关系 表 ， 用 名 义 变 量 加 前 缀 woe 的 形式 来 展现 .如 woe_edu。 


0. 417117743 
0. 72901624501 


-0. 626058501 
cis Ll 


生成 IVALL 数 据 集 ， 包 含 了 变量 的 IV 值 , 


otherp 
empi 
edu 


lastac 
conab 
cardty 


IV 值 基本 上 都 大 于 0.02， 变 量 都 有 预测 能 力 ，edu，lastac 的 预测 性 最 强 。 


34 ”变量 压缩 与 转换 变量 


34.1 分 类 变量 的 水 平 数 压缩 


1. 理 论 基础 


(1) 哑 变 量 的 转换 方法 


最 后 一 个 哑 变 量 不 放 入 模型 中 ， 默 认 作为 对 照 组 。 


在 SAS 的 proc logistic 过 程 中 是 自动 创建 哑 变 量 的 ， 分 为 reference 和 ，effect 两 种 ， 但 在 一 般 线性 回归 中 ， 需 要 自己 定义 哑 变 量 。 

当 名 义 变量 的 类 别 数 大 于 12 个 ， 降 低 基 数 就 变 得 非常 必要 ， 有 三 种 方法 : 

一 是 将 相同 含义 的 类 别 合并 ， 基 于 各 类 别 变量 的 含义 易于 解释 和 判断 ， 由 于 没有 考虑 目标 变量 和 被 合并 的 类 别 之 间 的 关联 性 ， 可 能 会 导致 预测 力 降低 。 
二 是 将 频次 少 的 水 平 简单 的 合 为 一 类 ， 看 上 去 简单 粗暴 ， 但 是 精度 降低 不 大 ， 问 题 水 平 数 依然 不 少 。 

三 是 根据 每 个 水 平 Y= 1 的 占 比 ， 将 值 接近 的 划分 为 一 类 ， 可 以 通过 快速 聚 类 过 程 完成 。 


压缩 之 后 的 分 类 变量 还 是 会 生成 若干 个 哑 变 量 。 从 道理 上 将 ， 在 后 续 建 模 中 ， 由 一 个 分 类 变量 生成 的 哑 变 量 要 么 同时 在 模型 中 ， 要 么 都 不 在 模型 中 。 但 是 在 模型 选择 变量 时 不 能 满足 这 个 要 求 ， 因 此 较 
好 的 方法 是 将 分 类 变量 转换 为 连续 变量 。 


(2) WOE 的 计算 


WOE (Weight Of Evidence) 多 译 为 证 据 权 重 ，IV (Information Value) 译 为 信息 值 ， 一 个 变量 的 总 预测 能 力 可 以 通过 |V 来 衡量 ， 它 是 该 变量 的 各 个 属性 的 WOE 的 加 权 总 和 ， 代 表 了 该 变量 区 分 目 
标 变量 的 事件 与 非 事件 的 能 力 ， 如 表 3-8 所 示 。 


表 3-8 WOE 计 算 
"ne: 在 当前 拓 住 地 时 间 CH) 
WOE [Eemi 


290 — 9999 1 224 1 286 0.347 0.007 
Total 18 233 1 307 19540 | 6m% | 0.06 


WOE = Log (%Good/%Bad) 
IV  sum-sum( ($Good - $Bad) * WOE} 


目标 -去 除 没有 预测 性 的 变量 (使 用 IV 大 小 来 判断 ) 。 小 于 0.02， 无 预测 力 ; 0.02:250.1, 3853/7388; 0.1 至 0.3 预 测 力 中 等 ， 大 于 0.3 预 测 力 强 。 
2.SAS 程 序 语 法 、 实 现 及 结果 解读 

(1) SAS 程 序 语法 

可 以 使 用 proc freq 过 程 计 算 频 数 分 布 。 

(2) SAS 程 序 实现 及 结果 解读 

(a) 计算 类 别 频数 的 分 布 情况 

以 edu 为 例 ， 分 析 存 在 多 类 别 的 情况 。 


代码 清单 3-20 ”计算 类 别 频 数 


proc freq data-card model5; 
table response*edu; 
run; 


FREQ 过 程 


表 一 response * edu 


response 1 
| 188 

19. 60, 4. 
38. 84| 8. 


40. 17 |31. 62 
| 280 | . 

29 20| 9.70| 5.53 
58.95/19.58/11. 16 

59. 83 |68. 38 |34. 42 

| 468, 136, 154 

48. 80/14. 18/16. 06 20. 96 | 100. 00 


ee 1 的 比例 分 别 为 59.83%，68.38%，34.42%，24.38% 差 别 还 比较 大 ， 若 是 某 两 个 或 几 个 类 别 差别 小 就 可 以 合并 了 。 要 注意 的 是 ， 对 这 种 顺序 统计 量 ， 只 能 是 相 邻 
进行 合并 ， 不 可 跨 类 


(b) 计算 WOE 和 |IV 
我 们 使 用 宏 CalcWOEIV 来 计算 类 别 变量 的 WOE 和 IV 指 ， 宏 CalcWOEIV 共 有 4 个 参数 。 


代码 清单 3-21 计算 WOE 和 IV 


$macro Cal ue es n, ivvar, dvvar, dsout); 

$macro CalcWOE in, ivvar, dvvar, newvar,woemap,dsout); 
/* deinde qd A RUE 

/*ivvar HA E*/ 

/ *àvvar s NAE f * / 

ANSA E NOERER I MP BE 4c 

woemap 表 示 ijvvar 变 量 的 mapping 关 系 

/*dsout 表 示 输 出 数据 集 */ 

计算 equ 的 宏 程序 调用 形式 为 : 


data C1; 
set card model4; 
keep id response &inclass3.; 


run; 

SCalcWOEIV(Cl, emp f, response,emp woe,woe emp,C2); 
SCalcWOEIV(C2, otherp, response,otherp woe,woe otherp,C3); 
SCalcWOEIV(C3, edu, response,edu woe,woe edu,C4); 


生成 售 有 WOFE 取 值 的 变量 ， 是 原 变量 加 后 缀 woe， 用 ivvar_woe 表 示 ， 如 edu_woe ( 见 表 3-9) 。 


表 3-9 WOE 转 换 后 变量 命名 


生成 名 义 变量 取 值 和 WOFE 值 之 间 的 对 应 关系 表 ， 用 名 义 变 量 加 前 缀 woe 的 形式 来 展现 .如 woe_edu。 


0. 417117743 
0. 7901694801 
-0. 626058501 

-1. 11529012 


otherp 
empl 
edu 
lastac 
conab 
cardty 


IV 值 基本 上 都 大 于 0.02， 变 量 都 有 预测 能 力 ，edu，lastac 的 预测 性 最 强 。 


3.4.2 ”连续 变量 聚 类 


1. 理 论 基 础 
共 线 性 ， 又 叫 多 重 共 线 性 ， 是 指 自 变量 之 间 存 在 较 强 的 线性 关系 ， 当 自 变 量 之 间 高 度 相关 时 ， 模 型 参数 会 变 得 不 稳定 ， 模 型 的 预测 能 力 会 降低 ， 同 时 影响 模型 结果 的 解释 ， 很 难 分 辨 每 个 自 变量 对 因 变 


量 的 影响 。 
(1) 共 线 性 的 诊断 方法 
1) 根据 业务 经 验 判 断 。 根 据 业务 知识 ， 如 个 人 收入 与 家 庭 收 入 、 个 人 收入 与 个 人 消费 可 能 相关 性 比较 强 。 
2) 相关 系数 等 ， 通 过 前 面 我 们 提 到 的 计算 Pearson、Spearman 等 相关 系数 来 判断 相关 性 。 不 过 此 处 我 们 计算 的 是 自 变量 之 间 的 相关 性 。 
3) 借助 proc reg 过 程 进行 共 线性 诊断 ， 计 算 相 关 统 计量 。 下 面 将 从 3 种 方法 分 别 介绍 。 
(a) 方差 扩大 因子 法 


VIF (Variance Inflation Factor) : 方差 扩大 因子 ， 公 式 如 下 : 


L=, 


R2 度 量 了 自 变量 xj 与 其 他 剩余 自 变量 之 间 相关 程度 ， 这 种 相关 性 越 强 说 明 自 变 量 之 间 的 多 重 共 线 性 程度 越 严 重 ，R2 也 就 越 接近 于 1，VIF 也 就 越 大 。 一 般 来 说 当 ViFj> 10 时 说 明 自 变量 xj 与 其 他 变量 有 较 


严重 的 多 重 共 线性 。 


TOL (tolerance) : 容忍 度 ， 公 式 如 下 : 


(b) 特征 根 判断 法 

特征 根 (eigenvalue) 接近 于 0， 有 多 个 接近 于 0， 就 有 多 少 个 多 重 共 线 性 关系 。 
条 件数 (condition index) 通过 认为 : 

: 小 于 10， 认 为 没有 多 重 共 线性 。 

:10—30, 555 2 ERR. 

.30 一 100， 有 中 等 多 重 共 线性 。 

大 于 100， 有 严重 的 多 重 共 线性 。 

(c) 方差 解释 比例 


方差 解释 比例 (variance proportion) 超过 0.5 且 条 件数 比较 大 的 时 候 有 多 重 共 线 性 。 


建 模 之 后 ， 会 发 现 一 些 可 以 看 成 存在 多 重 共 线 性 的 征兆 : 回归 系数 的 置信 区 间 过 宽 ; 回归 方程 整体 高 度 显著 ， 一 些 回 归 系 数 则 通 不 过 显著 性 检验 ; 回归 系数 的 正 负 号 出 现 倒置 ， 比 如 收入 和 支出 负 相 


关 ， 无 法 对 结果 进行 合理 的 解释 等 。 当 增加 或 者 减少 一 个 自 变量 时 ， 回 归 系 数 的 估计 值 会 发 生 较 大 变化 。 
处 理 共 线 性 的 目的 主要 有 三 个 : 减少 预测 变量 的 个 数 ; 确保 这 些 变量 是 相互 独立 的 ;提供 一 个 框架 来 解释 结果 。 
(2) 共 线 性 的 解决 方式 
共 线 性 的 解决 方式 主要 有 以 下 四 种 : 


1) 根据 业务 知识 ， 剔 除 一 些 导致 多 重 共 线 性 的 不 重要 的 变量 ， 保 留 最 优 预测 力 的 变量 。 


2) 增 大 样本 容量 。 当 变量 的 个 数 接近 于 样本 的 个 数 时 ， 自 变量 之 间 就 容易 产生 多 重 共 线性 ， 要 尽 可 能 地 使 样本 量 大 于 变量 个 数 。 但 在 具体 实践 中 ， 由 于 样本 个 数 本 来 就 不 多 ， 增 加 样本 的 方法 可 能 不 太 


现实 。 
3) 主 成 分 分 析 (Principal Components Analysis, PCA) 是 一 种 降 维 技术 ， 以 最 少 的 信息 丢失 为 前 提 ， 将 众多 的 原 有 变量 综合 成 较 少 几 个 综合 指标 ， 通 常 综合 指标 ( 主 成 分 ) 有 以 下 几 个 特点 : 
“ 主 成 分 个 数 远 远 少 于 原 有 变量 的 个 数 。 原 有 变量 综合 成 少数 几 个 因子 之 后 ， 因 子 将 替代 原 有 变量 参与 数据 建 模 ， 这 将 大 大 减少 分 析 过 程 中 的 计算 工作 量 。 
“ 主 成 分 能 够 反映 原 有 变量 的 绝 大 部 分 信息 。 因 子 并 不 是 原 有 变量 的 简单 取舍 ， 而 是 原 有 变量 重组 后 的 结果 ， 因 此 不 会 造成 原 有 变量 信息 的 大 量 丢失 ， 并 能 够 代表 原 有 变量 的 绝 大 部 分 信息 。 
* 主 成 分 之 间 应 该 互 不 相关 。 通 过 主 成 分 分 析 得 出 的 新 的 综合 指标 〈 主 成 分 ) 之 间 互 不 相关 ， 因 子 参与 数据 建 模 能 够 有 效 地 解决 变量 信息 重 登 、 多 重 共 线性 等 给 分 析 应 用 带 来 的 诸多 问题 。 


关于 主 成 分 ， 这 里 进行 如 下 说 明 。 
C, = Au tax t: ta, X, 


C, = dX, 十 dx, tecta,yx, 


C, 一 a 1A T a X» tecta X, 


主 成 分 的 定义 
C1=a11X1+a12X2+…+a1pXp， 且 使 方差 var (C1) 最 大 ， 则 为 第 一 主 成 分 。 


若 C2 与 C1 垂 直 ( 即 线性 无 关 ) ， 且 方差 var (C2) 最 大 ， 则 为 第 二 主 成 分 ， 依 次 类 推 Cm 与 前 m-1 个 主 成 分 垂直 ， 且 方差 var (Cm) 最 大 ， 则 为 第 m 个 主 成 分 。 


(a) 主 成 分 的 性 质 
若 原 始 变量 的 个 数 为 p， 则 有 上 且 只 有 P 个 主 成 分 。 
(b) 主 成 分 之 间 线 性 无 天 


方差 满足 var (x1) *var (x2) +...+var (Xp) =var (C4) *var (C2) +...+Var (Cp) , Evar (C1) 2var (C2) 2..2var (Cp) ， 说 明 主 成 分 是 原 变量 的 一 种 线性 组 合 ， 不 增加 信息 量 也 不 减少 信息 


(c) 主 成 分 的 选择 标准 


保留 多 少 个 主 成 分 取决 于 保留 部 分 的 累积 方差 在 方差 总 和 中 所 占 百 分 比 ( 即 累计 贡献 率 ) ， 如 前 两 个 主 成 分 累计 占 比 为 : 


var(C, ) + var(C, 
var(C, ) 4 var(C; ) * --- * var(C,) 


它 标志 着 前 几 个 主 成 分 概括 信息 之 多 少 。 进 行 主 成 分 分 析 的 目的 就 是 ， 需 要 选择 提取 原始 信息 的 80% 以 上 ， 但 同时 选择 的 主 成 分 要 尽量 少 ， 在 二 者 之 间 要 做 一 个 折 中 。 


(d) m 个 主 成 分 对 原始 变量 的 贡献 率 


如 对 m 个 主 成 分 对 x1 的 贡献 率 为 : 


IH 
» var(C, )a; 
_ Pel 


var(x;) 


3 
>. var(C.)a;. 


i=l 


i a. var(C, )*a;, var(C, )*a;. var(C. ) 


? 
fao = F = 
a var( x, ) var( x, ) 


方差 大 的 那些 变量 与 具有 大 特征 值 的 主 成 分 有 较 密 切 的 联系 ， 方 差 小 的 另 一 些 变量 与 具有 小 特征 值 的 主 成 分 有 较 强 的 联系 。 通 常 我 们 会 提取 前 几 个 主 成 分 ， 因 此 所 提取 的 主 成 分 会 过 于 照顾 方差 大 的 变 


量 ， 而 对 方差 小 的 变量 会 照顾 得 不 够 。 


实践 中 最 后 一 个 主 成 分 的 贡献 率 非常 小 ，var (Cp) #0。 如 果 后 几 个 主 成 分 的 贡献 率 都 非常 小 ， 则 可 以 据 此 判断 有 几 个 主 成 分 ， 如 图 3-8 所 示 。 


RA E 


| 2 3 4 5 6 7 8 9 10 


图 3-8 用 碎 石 图 判断 主 成 分 数 


成 功 的 主 成 分 分 析 : 一 是 在 维 数 大 为 减少 的 同时 ， 所 取 主 成 分 仍 保留 着 原始 变量 的 绝 大 部 分 信息 ， 二 是 能 够 给 出 符合 主 成 分 的 实际 背景 和 意义 的 解释 。 但 当 用 于 主 成 分 进行 回归 或 聚 类 分 析 时 ， 主 成 分 
不 一 定 要 得 到 解释 。 


主 成 分 方法 得 到 的 指标 不 具有 可 解释 性 ;因子 分 析 得 到 的 指标 虽然 具有 可 解释 性 ， 但 是 不 够 直接 ， 需 要 花 时 间 解 释 ; 

量 聚 类 法 使 用 因子 分 析 的 思路 ， 将 表述 一 个 因子 的 若干 个 变量 聚 为 一 类 ， 供 建 模 人 员 选 择 ， 为 变量 筛选 提供 依据 。 是 一 种 比较 好 的 半自动 方法 。 具 体 原理 可 以 参照 第 4 章 。 
2.SAS 程 序 语法 、 实 现 及 结果 解读 
(1) SAS 程 序 语法 


(a) proc reg 过 程 介绍 


proc reg data=; 
model y- /tol vif collin; 


vif 是 计算 方差 扩大 因子 ，TOL 是 计算 容忍 度 ，collin，collinoint 都 是 计算 特征 根 ， 条 件数 和 方差 解释 比例 ， 但 是 collin 包 含 了 截 距 ，collinoint 调 整 截 距 。 

此 处 需要 说 明 的 是 回归 分 析 要 求 因 变量 是 连续 性 变量 ， 此 处 我 们 只 要 研究 自 变 量 之 间 的 多 重 共 线 性 关系 ， 与 具体 因 变 量 无 关 ， 因 此 可 以 选择 response 作 为 因 变量 
proc reg 过 程 既 能 进行 共 线性 判断 ， 同 时 还 可 以 根据 参数 的 输出 情况 ， 逐 步 消 除 共 线性 。 

判断 流程 图 如 图 3-9 所 示 。 

删除 变量 的 原则 是 综合 考虑 P 值 和 VIF 的 因素 。 


(b) 主 成 分 分 析 


proc DEINOONDS 选项 >; 
by 变量 

var 变量 ; 

run; 


MUR UB. fnR— 
行 的 条 件 系数 是 否 大 于 30 


查看 和 截 距 的 方差 解释 比例 (X) 查询 不 含 截 距 夫 的 
是 否 大 于 0.5 | 最 后 一 行 


— MH 


M E FHRA MEHE m 重新 开 台 构 建 回 归 


图 3-9 ” 共 线 性 判断 与 处 理 流程 


选项 说 明 如 下 : 


data= 指 定 主 成 分 的 分 析 的 数据 集 ， 可 以 是 原始 数据 集 ， 可 以 是 协 方差 矩阵 ， 或 者 相关 系数 矩阵 。 如 果 是 非 原始 数据 集 ， 数 据 集 的 类 型 必须 加 以 定义 ， 如 type=cov 表 示 协 方差 矩阵 ，type=corr 表 示 协 
方差 阵 。 


out-: 指定 主 成 分 分 析 的 输出 数据 集 ， 该 数据 集 包 含 原 数 据 集 以 及 主 成 分 。 
outstat-: 指定 输出 数据 集 所 包含 的 统计 量 。 

n=: 指定 主 成 分 的 个 数 ， 默 认输 出 全 部 主 成 分 的 个 数 。 

std: 主 成 分 得 分 变量 的 方差 被 标准 化 为 1， 默 认 是 为 方差 对 应 的 特征 值 。 
plots: 指定 用 于 控制 输出 图 形 的 选项 。 

pfefix= : 主 成 分 变量 的 前 级 。 

by: 语句 指定 分 组 变量 


var: 语句 指定 数据 集中 用 来 进行 主 成 分 分 析 的 变量 ， 这 些 变量 类 型 必须 为 数值 型 。 


roc varclus < options > ; 
var 参与 分 析 的 数值 变量 名 称 ; 
freq 变量 加 权 值 ， 只 能 为 整数 ; 

by 分 类 变量 ， 之 前 需要 sort ; 

run; 


第 一 类 选项 : 输入 输出 数据 

data=: 输入 资料 文件 名 。 

outstat-: 输出 均值 方差 相关 性 等 统计 资料 文件 。 

outtree= : 输出 一 个 文件 ， 供 绘制 树 形 图 。 当 使 用 此 选项 时 ，SAS 会 同时 界定 hierarchy 选 项 。 

第 二 类 选项 : 控制 群 的 数目 

minclusters (minc) = 正 整 数 : 指定 最 少 要 有 几 个 群 。 

maxclusters (maxc) = 正 整数 : 指定 最 多 有 几 个 群 。 

proportion (percent) = 正 有 理 数 : 群 主 成 分 所 能 解释 的 变异 数 百分比 。 注 意 ， 这 里 proportion=0.75 与 percent=75 是 一 样 的 。 


maxeigen= 实 数 : 规定 每 个 群 内 第 二 特征 值 的 最 大 可 能 值 。 


(2) SAS 程 序 实现 及 结果 解读 
(a) 多 重 共 线 性 诊断 


代码 清单 3-22 ”多 重 共 线 性 诊断 


proc reg data-card model4; 
model response-utilrate e age e balance e confreq e conp e 
quit; 


m homein e m income e points e recent e repay e tmbank e/vif tol collin colli noint; 


VIF 没 有 大 于 10 的 说 明 多 重 共 线性 不 严重 。 


1) 判断 : 从 含 截 距 表 最 后 一 行 开始 ， 条 件 指数 为 33.79683， 大 于 30; 截 距 的 方差 解释 比例 为 0.05906， 小 于 0.5; 在 此 行 m_homein1，m _income1 方 差 解 释 比 例 分 别 为 0.56，0.86， 都 大 于 0.5。 根 据 
VIF 因 素 (因为 此 处 因 变 量 为 二 元 变量 ,不 考虑 P 值 的 影响 ) ， 去 掉 m_income1。 再 次 对 剩余 的 变量 做 回归 模型 运行 即 可 。 
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共 线 性 诊断 〈( 截 距 已 调整 
(Aft 偏差 比例 
指数 uti Irate_e age e balance e confreq e conp e m homein e m income e points e recent e repay e tmbank e 
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00332| 0.02745 0. 66298 0.76875|  0.01674|  0.04566| 0.01056 | 0. 00007993 
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2) 继续 判断 : 从 含 截 距 表 最 后 一 行 开始 ， 条 件 指数 为 30.19087， 大 于 30; 截 距 的 方差 解释 比例 为 0.96282， 大 于 0.5; 转 到 调整 截 距 表 的 最 后 一 行 ，points1、recent1 方 差 解 释 比 例 分 别 为 0.80991、 
0.91765， 都 大 于 0.5， 根 据 VIF 因 素 ， 去 掉 recent1。 


3) 再 次 利用 剩余 的 变量 做 回归 ， 我 们 发 现 最 后 一 行 的 条 件数 为 26.43115 小 于 30，VIF 也 都 小 于 2， 多 重 共 线性 基本 消除 。 综 上 步骤 ， 我 们 排除 掉 m_income1，recent1 两 个 变量 。 
(b) 主 成 分 分 析 


代码 清单 3-23” 主 成 分 分 析 


proc princomp data-card model4 out-rl; 
varéinvar4.; 
run; 


PRINCOMP 过 程 


观测 959 
1 MEL 
简单 统计 至 


uti lratel agel balanceí confreq1í conpíi m homeiníi m income1  points1 recenti repay1 tmbanki 
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uti Iratel age! balance! confreqi conpi m homeini m income! points! recenti repay! tmbanki 
utilratel 1. 0000 |-. 0254 0.2430|  -.0375| 0. 4825 . 0270 -.0259|  -.0515|  -.0702| 0.5188|  -.0391 
age! | -.0254 1.0000. .0117 | .0599| -. 0139. .4190 .5678|  -.0263|  0.0182| 0.0085|  -.0080 
balance! | 0. 2430 |0. 0117| . 0000. .0145| 0. 2616. . 0382. .0373| 0.0057)  —.0105| 0.2563| 0.0503 
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conpi . 4825 -. . 0080 | 1. . 0136 l -. .0148| 0.4922| 0.0396 
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rer s | | | | | | | | 


recenti . 0702 | 0. 


0 
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0 
confreqi . 0375 0 


repay1 . 5188 
tmbank1 . 0391 |-. I 0. : ; | . . l 


输出 一 些 简 单 的 统计 量 及 相关 矩阵 。 可 以 看 出 变量 两 两 之 间 的 相关 性 ，m_homein1 和 m_income1 相 关系 数 为 0.7789，recent1 和 points 相 关系 数 为 0.8084， 有 较 强 的 相关 性 。 


从 相关 和 矩阵 的 特征 值 ， 可 以 看 出 对 应 于 特征 值 2.45 的 主 成 分 能 解释 22.29% ， 宗 积 全 前 6 个 特征 值 可 以 达到 83.98%。 
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接 下 来 输出 特征 向 量 表 。 


例 。 


Prin1l= 一 0.17*utllratel+0.08*agel1 一 0.004*balance1+…+0.33xtmbankl ; 


Prin2-::: ; 


utilratel 


agel 


balance! | 


Prini 


170848. 
. 082309. 
. 064010. 


confreqí 
conp1 

m homeini 
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如 图 3-10 所 示 ， 如 果 ods graphics 选 择 处 于 打开 状态 ， 过 程 步 还 会 输出 陡坡 图 盒 方 差 解 释 图 。 陡 坡 图 横 轴 是 主 成 分 序 
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除了 上 述 输出 的 结果 外 ， 过 程 步 还 产生 了 数据 集 R1， 该 数据 集 包 括 原始 数据 集 的 所 有 变量 和 主 成 分 变量 prin1-prin11。 


根据 保留 80% 的 经 验 ， 


(c) 聚 类 分 析 


代码 清单 3-24 


proc varclus data-card model4 maxeigen-0.5; 


var&invar4.; 


我 们 可 以 保留 前 6 个 主 成 分 来 蔡 代 原来 的 11 个 变量 ， 提 取 83.98%。 
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纵 轴 是 特征 值 。 
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方差 解释 图 横 轴 是 主 成 分 序号 
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， 纵 轴 是 方差 解释 和 轮 积 解释 比 


SAS 系统 
笠 交 主 成 分 聚 类 分 析 
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"iB 11 Maxeigen 0.5 


1 个 聚 类 的 聚 类 汇总 


-RX RRN | 解释 的 | 第 二 
** 成 员 偏差 偏差 ”比例 Wi 
11 11/2. 830469 | 0. 2573| 2. 3991 


解释 的 总 偏差 = 2.830469 比例 = 0.2573 


将 拆 分 聚 类 1， 因 为 它 有 最 大 的 第 二 特征 值 2.399085 CAF MAXEIGEN-0.5 ÍBD 。 


2 个 聚 类 的 聚 类 汇总 
-—— 1 3 第 二 


” 偏差 ”偏差 “比例 特征 值 
1 4 4/2. 813591| 0. 7034| 0. 5230 
J 7 7|2.405981| 0. 3437| 2. 1847 


解释 的 总 偏差 = 5.219573 比例 = 0.4745 
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第 一 次 循环 将 所 有 的 变量 聚 类 成 一 类 ， 方 差 解释 比例 为 2.8305， 占 总 方差 的 25.73% ， 第 二 特征 值 为 2.3991 > 0.5， 所 以 会 继续 分 裂 。 
第 一 次 分 裂 后 如 图 3-11 所 示 ， 分 成 了 两 类 : 第 一 类 有 4 个 变量 ， 第 二 类 有 7 个 变量 ; 两 类 的 特征 值 分 别 为 0.5230，2.1847， 都 大 于 0.3， 所 以 会 继续 分 裂 。 
变量 的 聚 类 信息 第 三 列表 示 R 方 “自己 的 聚 类 ” ， 表 示 变 量 与 所 属 类 内 主 成 分 之 间 相 天 系数 的 平方 ， 其 值 越 大 表明 该 变量 与 类 之 间 越 紧密 。 如 utilrate_e 为 0.6338。 


第 四 列表 示 R 方 “下 一 个 最 靠近 的 ” 指 变量 与 相 邻 类 之 间 主 成 分 相关 系数 的 平方 ， 其 值 越 小 ， 说 明 该 变量 与 其 他 类 之 间 的 差别 越 大 。 


第 五 列 变量 ，1-R 方 比 ， 该 值 越 小 ， 说 明 该 变量 与 自己 所 在 类 越 紧 密 ， 与 相 邻 类 分 得 越 开 。 


最 终 循环 结束 时 ， 变 量 被 分 成 6 类 ， 第 二 特征 值 都 小 于 0.3， 拆 分 结束 。 


根据 选择 标准 : 选择 1-R**2 比 较 小 的 变量 ， 第 1、2、4 类 分 别 选 择 balance_e、points e, tmbank e; 根据 业务 ， 我 们 对 于 第 3 类 同时 保留 m_homein e, m inco 
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图 3-11 聚 类 分 析 输 出 结果 


3.44.3 ”连续 变量 的 分 箱 


1. 理 论 基础 
量 分 箱 和 WOFE 的 处 理 方式 是 在 零售 评分 卡 领域 比较 通行 的 变量 处 理 方法 ， 其 特点 一 是 能 解决 自 变 量 和 因 变 量 之 间 非 线性 的 关系 ， 二 是 使 得 模型 比较 稳定 ， 三 是 善于 处 理 离散 变量 比较 多 的 情况 。 


分 箱 转 换 就 是 把 区 间 型 变量 转 成 分 类 变量 ， 主 要 作用 是 提升 变量 的 预测 能 力 ， 如 果 分 箱 恰 当 ， 是 可 以 有 效 提升 自 变 量 和 因 变 量 的 相关 性 的 ， 分 箱 还 可 以 适用 于 有 了 明显 的 偏 分 布 的 自 变 量 ， 自 变量 与 因 变 
量 之 间 有 比较 明显 的 非 线 性 关系 。 主 要 有 三 种 方法 : 等 频 分 布 ， 等 距 分 布 ， 最 优 分 布 。 


由 于 多 数 方法 要 求 自 变 量 与 因 变量 是 线性 关系 ， 如 果 是 非 线 性 关系 时 ， 可 用 以 下 两 种 解决 方法 : 

1) 把 所 有 可 能 的 X 的 函数 形式 都 放 到 模型 中 做 回归 ， 然 后 用 SAs 提 供 的 模型 选择 方法 ; 

2) 用 数据 分 箱 ， 先 检验 X 与 Y 之 间 的 线性 和 非 线性 关系 (一般 是 卡 方 检验 ) ， 然 后 用 经 验 Logit 图 确定 每 个 X 放 入 模型 时 的 函数 形式 ; 
2.SAS 程 序 语法 、 实 现 及 结果 解读 


(1) SAS 程 序 语法 


proc rank < 选项 >; 
var 变量 
ranks 新 变量 名 字 ; 
by 分 组 变量 ; 


run; 


proc rank 各 选项 说 明 : 

data=: 输入 数据 集 ; 

out-: 输出 数据 集 ; 

groups-: 分 成 多 少 组 ; 

var: 要 求 秩 的 变量 ,需要 事先 排序 ; 

ranks: 求 秩 后 新 变量 的 名 字 ， 若 无 此 选项 则 秩 变 量 将 替代 原 变量 ; 
by: 按照 此 变量 分 组 来 求 秩 。 

(2) SAS 程 序 实现 及 结果 解读 


代码 清单 3-25 ”变量 最 优 分 类 


data w1; 
set card model4; 
keep id response &invar4.; 


run; 

以 balance e 为 例 

%BinContVar (wl, balance e, response, 1, 3, 0.01, bin balance); 
SApplyMap2 (wl, balance e, balance e b, bin balance, w2); 
SCalcWOEIV (w2,balance e b, response,balance woe, 

woe balance,w3); 


bin_balance 数 据 集 如 下 : 


| nn S 
0. 2099 590. 45875 
590. 45875 1676.51645 
1676. 51645 2361. 2051 


] -60.307272838 
24  0.1651232784Z 
3 0. 73502564219 


IV 值 为 0.098 


最 终 连 续 变 量 的 分 类 结果 如 表 3-10 所 示 。 
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344 变量 的 转换 


当 因 变量 不 符合 正 态 分 布 时 ， 我 们 可 以 考虑 将 其 进行 适当 的 变换 ， 使 得 变换 后 的 新 变量 接近 正 态 分 布 。 数 据 转换 的 方式 有 多 种 多 样 ， 操 作 起 来 简单 、 灵 活 、 方 便 。 但 是 也 有 缺点 ， 比 如 在 具体 的 数据 控 
掘 实践 中 ， 有 些 非 线 性 转换 如 log 转 换 ， 平 方 根 转换 ， 多 次 方 转换 等 的 含义 无 法 用 清晰 的 商业 逻辑 和 商业 含义 向 用 户 解释 ， 比 如 你 无 法 解释 “将 消费 者 在 线 消 费 金额 取 对 数 ” 在 商业 上 是 什么 含义 ， 这 在 一 定 
程度 上 影响 了 使 用 方 对 模型 的 接受 程度 和 理解 能 力 。 


但 毕竟 预测 模型 的 最 终 目 的 在 于 预测 的 精确 度 ， 数 据 转换 造成 的 数据 无 法 解释 瑕 不 掩 瑜 ， 具 体 转换 方法 可 参阅 公开 资料 。 


3.5 ”模型 训 


练 


3.5.1 ”关于 Logistic 回 归 


Logistic 回 归 分 析 的 目标 变量 是 类 别 变量 ， 线 性 回归 分 析 的 目标 变量 是 数值 变量 。 


Logistic 回 归 的 假设 条 件 : 数据 来 自 随机 样本 ; 自 变 量 之 间 尽 量 独立 ， 避 免 多 重 共 线 性 ; 因 变 量 是 自 变量 的 函数 ; 线性 回归 模型 中 要 求 残 差 是 独立 同 分 布 的 ， 在 Logistic 回 归 中 不 需要 。 
Logistic 回 归 中 没有 关于 自 变量 的 分 布 的 假设 条 件 ， 自 变量 可 以 是 连续 变量 ， 分 类 变量 等 。 线 性 回归 分 析 估计 参数 使 用 的 是 最 小 二 乘法 或 者 极 大 似 然 法 ， 而 Logistic 回 归 中 只 能 使 用 极 大 似 然 法 。 
评价 模型 是 否 能 够 有 效 地 描述 数据 的 基本 特征 ， 可 以 从 拟 合 优 度 和 准确 性 两 方面 进行 评价 。 

1. 拟 合 优 度 评价 

在 对 logistic 模 型 进行 拟 合 优 度 评价 时 常用 的 是 AIC (Akaike' s Information Criterion) 和 SBC (Schwarz' s Bayesian Information Criterion) 准则 。 

AlIC 的 计算 公式 为 AIC=-2log (L) +2k， 其 中 !L 指 似 然 函 数 的 取 值 ，k 是 指 参 数 的 个 数 。 

SBC 计 算 公式 为 : SBC--2log (L) +klog (n) 

对 于 这 两 个 准则 都 是 取 值 越 小 ， 模 型 越 好 ， 但 需要 注意 的 是 ，AlC 准 则 和 SBC 准 则 只 适用 于 同一 数据 不 同 模型 之 间 的 比较 ， 不 适合 不 同 数据 模型 之 间 的 比较 。 

2. 模 型 的 准确 性 


Logistic 回 归 模 型 的 因 变量 取 值 只 有 两 种 可 能 (0 或 者 1， 参 与 或 者 不 参与 ) ， 我 们 可 以 按照 是 否 参与 将 样本 分 成 两 组 ， 比 如 参与 有 50 个 ， 不 参与 有 100 个 ， 则 总 共有 50*100=5000 对 ， 在 一 个 样本 对 
中 ， 如 果 参 与 的 概率 大 于 未 参与 的 概率 ， 则 为 concordant 一 臻 对， 如 果 参 与 的 概率 小 于 未 参与 的 概率 则 为 discordant 不 一 臻 对， 如 果 发 生 的 概率 等 于 不 发 生 的 概率 则 为 tie 结 。 
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这 些 指标 用 于 同一 组 数据 的 不 同 的 模型 之 间 的 比较 ， 指 标的 取 值 越 大 ， 说 明 模 型 的 预测 精度 越 高 。 


3.5 ”模型 训练 


3.5.1 关于 Logistic 回 归 


Logistic 回 归 分 析 的 目标 变量 是 类 别 变量 ， 线 性 回归 分 析 的 目标 变量 是 数值 变量 。 

Logistic 回 归 的 假设 条 件 : 数据 来 自 随机 样本 ; 自 变 量 之 间 尽 量 独立 ， 避 免 多 重 共 线 性 ; 因 变 量 是 自 变量 的 函数 ; 线性 回归 模型 中 要 求 残 差 是 独立 同 分 布 的 ， 在 Logistic 回 归 中 不 需要 。 
Logistic 回 归 中 没有 关于 自 变量 的 分 布 的 假设 条 件 ， 自 变量 可 以 是 连续 变量 ， 分 类 变量 等 。 线 性 回归 分 析 估计 参数 使 用 的 是 最 小 二 乘法 或 者 极 大 似 然 法 ， 而 Logistic 回 归 中 只 能 使 用 极 大 似 然 法 。 
评价 模型 是 否 能 够 有 效 地 描述 数据 的 基本 特征 ， 可 以 从 拟 合 优 度 和 准确 性 两 方面 进行 评价 。 

1. 拟 合 优 度 评价 

在 对 logistic 模 型 进行 拟 合 优 度 评 价 时 常用 的 是 AIC (Akaike' s Information Criterion) 和 SBC (Schwarz' s Bayesian Information Criterion) 准则 。 

AlIC 的 计算 公式 为 AIC=-2log (L) +2k， 其 中 ! 指 似 然 函数 的 取 值 ，k 是 指 参 数 的 个 数 。 

SBC 计 算 公式 为 : SBC--2log (L) +klog (n) 


对 于 这 两 个 准则 都 是 取 值 越 小 ， 模 型 越 好 ， 但 需要 注意 的 是 ，AlIC 准 则 和 SBC 准 则 只 适用 于 同一 数据 不 同 模型 之 间 的 比较 ， 不 适合 不 同 数据 模型 之 间 的 比较 。 


2. 模 型 的 准确 性 


Logistic 回 归 模 型 的 因 变量 取 值 只 有 两 种 可 能 (0 或 者 1， 参 与 或 者 不 参与 ) ， 我 们 可 以 按照 是 否 参与 将 样本 分 成 两 组 ， 比 如 参与 有 50 个 ， 不 参与 有 100 个 ， 则 总 共有 50*100=5000 对 ， 在 一 个 样本 对 
中 ， 如 果 参 与 的 概率 大 于 未 参与 的 概率 ， 则 为 concordant 一 臻 对， 如果 参与 的 概率 小 于 未 参与 的 概率 则 为 discordant 不 一 臻 对， 如 果 发 生 的 概率 等 于 不 发 生 的 概率 则 为 tie 结 。 
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这 些 指标 用 于 同一 组 数据 的 不 同 的 模型 之 间 的 比较 ， 指 标的 取 值 越 大 ， 说 明 模 型 的 预测 精度 越 高 。 


3.5.2 EIA 


1. 理 论 基 础 
一 个 好 的 回归 模型 ， 并 不 是 变量 越 多 越 好 ， 在 建立 模型 时 ， 选 择 自 变量 的 指导 思想 应 该 是 “ 少 而 精 ” ， 选 择 最 优 子 集 的 三 种 方法 分 别 是 前 进 法 、 向 后 剔除 法 、 逐 步 法 。 
(1) 前 进 法 


即 采 用 回归 模型 中 逐个 引入 自 变量 。 刚 开始 ， 模 型 中 没有 自 变 量 ， 然 后 引入 第 一 个 自 变 量 进 入 方程 ， 进 行 F 检 验 和 T 检 验 ， 计 算 残 差 平 方 和 。 如 果 通 过 了 检验 则 保留 该 变量 。 接 着 引入 第 二 个 变量 进入 回 
归 模 型 ， 重 新 构建 一 个 新 的 估计 方程 ， 并 进行 F 检 验 和 T 检 验 ， 同 时 计算 残 差 平方 和 。 从 理论 来 说 ， 增 加 一 个 新 的 自 变量 之 后 ， 回 归 平 方 和 应 该 增加 ， 残 差 平 方 和 应 该 减少 ， 引 进 一 个 自 变 量 前 后 的 残 差 平 方 
和 之 差额 就 是 该 新 引进 的 自 变量 的 偏 回归 平方 入 ， 如 果 改 值 明显 偏 大 ， 说 明 新 引进 的 该 自 变量 对 目标 变量 有 显著 影响 ， 反 之 则 没有 显著 影响 。 疝 前 引入 法 最 大 的 缺点 是 最 先 引 入 回归 方程 的 变量 在 随后 不 会 
被 吻 除 出 去 ， 这 对 后 面 的 引入 的 变量 的 评估 过 程 和 结果 会 造成 干扰 。 


(2) 向 后 剔除 法 


向 后 剔除 法 正好 与 向 前 引入 法 相反 ， 即 首先 把 所 有 的 自 变量 的 一 次 性 放 进 回归 模型 中 进行 F 检 验 和 T 检 验 ， 然 后 逐个 删除 不 显著 的 变量 ， 删 除 的 原则 是 根据 其 偏差 平方 和 的 大 小 来 决定 的 ， 如 果 偏 回归 平 
方 和 很 大 则 保留 ， 否 则 删除 之 。 向 后 剔除 法 的 缺点 是 可 能 引入 一 些 不 重要 的 变量 ， 计 算 量 较 大 ， 并 且 变 量 一 旦 被 剔除 之 后 ， 就 没有 机 会 重新 回 到 回归 模型 中 了 。 


(3) 逐步 回归 法 


该 方法 综合 了 上 述 两 种 方法 的 特点 ， 在 前 进 法 的 基础 上 ， 引 进 后 退 法 的 思想 。 自 变量 仍然 是 逐个 进入 模型 中 ， 在 引入 自 变 量 时 需要 利用 偏 回 归 平 方 和 进行 检验 ， 只 有 显著 时 才 可 以 加 入 ， 当 新 的 变量 加 
入 模型 之 后 ， 又 要 重新 对 原来 的 老 变量 进行 偏 回归 平方 和 的 检验 ， 一 旦 某 自 变量 变 得 不 重要 时 就 立即 删除 该 变量 。 如 此 循环 往复 ， 直 到 留 下 的 老 变 量 均 不 可 删除 为 止 ， 并 且 新 的 变量 也 无 法 加 入 。 


2.SAS 程 序 语 法 、 实 现 及 结果 解读 


(1) SAS 程 序 语 法 


proc logistic data-sas-data-set < 选项 1 > 

model response = independents < / 选项 2 >; 
by variables; 

output<out=sas-data-set> 

<keyword=name http://www.hzcourse.com/resource/readBook?path-/openresources/teach ebook/uncompressed/17174/OEBPS/Text/... keyword-name» 

/ «alpha-value»; 

weight variable; 

class 语句 ; 

odqsrartio 语 句 ; 

units 语 句 ; 

roc 语 句 ; 

score 语 句 ; 


选项 1 说 明 : 

data= 数 据 集 ， 可 以 是 原始 数据 集 、 频 数 数据 集 等 。 

descending 指 定 输出 时 因 变 量 由 大 到 小 (二 分 类 变量 y=1 的 概率 的 Logit 变 换 ) ， 缺 省 因 变 量 取 值 由 小 到 大 (二 分 类 变量 y=0 的 概率 的 Logit 变 换 ) 。 

simple 输 出 各 变量 的 简单 统计 量 。 

model 语 句 用 于 定义 应 变量 和 自 变 量 ， 因 变量 = 解释 变量 /<options> 主 要 选项 有 noint 表 示 无 截 距 模型 ，rsq 输 出 决定 系数 R2，CL 参 数 估计 的 置信 区 间 ，RL 优 比比 率 的 置信 区 间 。 
选项 2 说 明 : 


selection= 解 释 变 量 币 ，Selection 用 于 选择 筛选 自 变量 的 方法 ， 有 backward (向 后 法 ) . forward (向 前 法 ) 、stepwise (逐步 法 ) 、score (最 优 子 集 法 ) . none (完全 法 ) 五 个 选项 ， 软 认为 


none。 
SLE= 或 者 slentry= 概 率 值 ， 入 选 标准 ， 规 定 变量 入 选 模型 的 显著 性 水 平 ， 默 认 是 0.05。 
SLS= 概 率 值 或 者 slstay= ， 吻 除 标准 ， 指 定 变量 保留 在 模型 的 显著 水 平 ， 默 认 是 0.05。 
标准 化 偏 回归 系数 STB 可 用 来 比较 各 个 自 变量 作用 的 大 小 。 
sequential= 无 论 是 移入 还 是 移 除 ， 此 选项 都 强制 选择 算法 按照 model 语 句 设 定 的 顺序 。 
start=n 强 制 模型 从 model 语 句 列 出 的 前 n 个 变量 开始 。 
stop= 规 定 模型 中 包含 的 最 大 变量 数 (forward) 或 者 最 小 变量 数 (backward) 。 


include=n 强 制 将 model 中 列 出 的 前 n 个 变量 包含 在 所 有 模型 中 ， 与 start 的 区 别 是 ，Include= n 强 制 将 前 n 个 变量 包含 在 模型 中 ， 而 Start=n 仅 仅 从 包含 前 n 个 变量 的 模型 开始 整个 过 程 ， 这 些 变量 后 续 可 
能 会 被 移 除 。 


(2) SAS 程 序 实现 及 结果 解读 
(a) 定义 因 变 量 


代码 清单 3-26 ”变量 筛选 


proc logistic data-card model5 ; 

model response (event-"1")-balance woe; 
run; 
proc logistic data-card model5desc; 
model response-balance woe; 

run; 


(b) 建 模 


代码 清单 3-27 Logistic 回归 建 模 


proc logistic data-card model5 des; 

model response-balance woe cardtyp woe conab woe edu woe emp woe 

income woe lastact woe otherp woe points woe homein woe age woe conp woe 
tmbank woe/stbselection-stepwise slstay-0.01; 

run; 


运行 结果 如 下 : 


WORK. CARD. MODELS 


response 


响应 水 平 数 2 
En 一 元 Logit 
优化 方法 Fisher 评分 法 


夺取 的 观测 数 959 
使 用 的 观测 数 959 


We] [or E 200 


AFF 
信 


为 reSsponse=1| 。 


本 部 分 为 建 模 的 总 体 介绍 ， 包 括 数据 的 名 称 ， 因 变量 ( 即 响应 变量 ) 的 名 称 和 不 同 取 值 的 个 数 ， 模 型 的 种 类 、 优 化 方法 、 读 入 和 参与 建 模 的 个 数 等 。 


响应 概况 表 输出 了 因 变 量 的 取 值 和 频数 ， 其 中 取 值 为 1 的 频数 为 475， 取 值 为 0 的 频数 为 484 由 于 我 们 设置 了 desc 选 项 ， 本 模型 将 预测 response=1 的 概率 ， 


pei S AA S 
满足 收敛 准则 (GCONV-IE-89). 


卡 万 自由 度 Pr > 卡 方 
394. 3187 13| «0001 


由 于 使 用 了 selection=stepwise， 因 此 第 0 步 时 ， 拟 合 的 模型 只 有 截 距 项 ， 残 差 的 卡 方 检 验 是 比较 了 包含 全 部 自 变量 的 模型 和 当前 模型 。 

残 差 卡 方 检验 的 原 假设 是 全 模型 和 当前 模型 没有 显著 性 差别 。 此 处 的 P 值 为 <0.0001， 因 此 ， 拒 绝 原 假设 ， 说 明 全 模型 和 当前 模型 具有 显著 差别 ， 即 全 部 自 变量 中 还 存在 有 预测 价值 的 变量 。 
第 一 步 时 points_e 进 入 模型 ， 首 先 模 型 的 状态 是 收敛 的 ， 这 个 结果 和 变量 的 选择 方法 无 关 ， 是 参数 估计 使 用 了 运 代 法 的 结果 ， 模 型 拟 合 必须 达到 收敛 状态 。 

检验 全 局 零 假设 ， 提 供 的 三 种 方法 似 然 比 、 评 分 、wald 检 验方 法 ， 三 种 方法 的 卡 方 值 都 小 于 0.05， 说 明 points_e 和 截 距 项 是 因 变量 有 预测 作用 的 。 

残 差 卡 方 检验 说 明 剩 余 自 变量 中 仍 有 对 因 变 量 有 预测 作用 的 变量 。 

第 一 步 中 没有 剔除 的 变量 。 


第 二 步 运行 结果 如 图 所 示 ，edu_woe 变 量 进入 了 模型 ， 重 复 上 述 步骤 。 


第 1 mw. MATA "points woe" 


模型 收敛 状态 
满足 收敛 准则 (GCONV=1E-8) 。 


模型 拟 合 统计 量 

准则 — 仅 截 距 EGRRUOEE 
AIC 1331. 372 1107. 543 
SC |1336. 238. 1117. 275 
-2 Log L 1329.372 1103. 543 


检验 全 局 零 假设 : BETA-O 
检验 ” 卡 方 ”自由 度 Pr > 卡 方 
似 然 比 225. 8287 1| «0001 


| 评分 |200. 7110| 1| <.0001 


Wald 157.4912 | «. 0001 


残 差 卡 方 检验 —— 
卡 方 HE Pr > 卡 方 
234. 5091| 12| 《<.0001 


第 2 步 ， 输 入 了 效应 “edu woe" : 


模型 收效 状 态 。 
满 正 收敛 准则 (GCONV-TE-8) 。 


模型 拟 合 统计 量 
准则 RELE 截 距 和 协 这 量 
AIC 1331. 372 1024. 916 
SC |1336. 238 | 1039. 514 
-9 Log L|1329.372| 1018. 916 


检验 全 局 零 假 设 : BETA-O 
检验 +h BAË Pr > 卡 方 
ILAR Hke 310. 4555 2| <.0001 
评分 “267. 1585 2| 《.0001 
Wald |198.5452| 2|  «.0001 


残 差 卡 方 检验 
卡 方 自由 度 Pr > 卡 方 
166.6747 11| «0000 


Model building terminates because the last effect entered is removed by the Wald statistic criterion. 


逐步 选择 汇总 
自由 度 eg UA "ald 


200. 7110 
| 82. 7177 


效应 
GS A 已 删除 


points woe 


NE 


edu woe 
68. 6195 
| 36. 6476 


1 
2 

lastact woe 3 

4 

5| 19.3655. 

6 

7 

8 

9 


income woe 
'cardtyp woe 
| | | 13.4401. 

| 12.3174. 

| 9.6861 

| 7.2674 
0| 5.9468 
- 


tmbank woe 


co o -" Oc à co NM 


emp woe 
10 otherp woe 


1 
1 
1 
1 
1 
balance woe | 1 
| 
] 
1 
1 
1 


11 otherp woe| 


通过 逐步 选择 汇总 ， 可 以 看 到 模型 共 运 行 11 步 ， 共 有 9 个 变量 进入 了 模型 ， 只 有 一 个 变量 被 剔除 otherp_woe。 


balance woe 


cardtyp woe 


lastact woe 


points woe 


tmbank woe 


标准 
Ex 


1| 0.9675 0. 2794 


1. 0796 0. 2644 | 


1.0276 0. 1281 | 
0. 9657 0. 3596 
- 0. 9208 0. 2222. 


0.8989 0. 1248| 51.8790 
0. 9961 |0. 0894 | 124. 1557 
0. 8454 |0. 2583| 10. 7102 
0. 8009 |0. 2368| 11. 4428 


优 比 估计 值 


J LI 


balance woe 


cardtyp woe 


edu woe 

emp woe 
income woe 
lastact woe 
points woe 
age woe 
tmbank woe 


结 值 百分比 
对 


通过 第 0 步 运行 结果 可 知 取 值 为 1 的 频数 为 475， 取 值 为 0 的 频数 为 484， 模 型 的 对 数 =475*484=229900 对 ， 故 是 通过 模型 的 一 致 百分比 为 87.3%， 一般 大 于 70% 都 可 以 接受 。 


一 致 部 分 所 占 自 分 比 
不 一 致 部 分 所 占 百分比 


pum 
—n" 
943 | 
7242 
o2] 
11 
457 
708 2. 
. 228 


V| M| M| P| P| N| N| M| N 


174 


273 
. 404 
. 401 


预测 概率 和 观测 响应 的 关联 
87. 5 Somers 


12. 6 Gamma 


0.1 Tau-a 
229900 c 


4. 


4 
3 
9 
3. 
3 
3 
J 
3 


95% Wald 
和 置信 限 
522 


. 153 


550 


. 942 
. 592 
298 5 
625 
924 


214 
882 


138 
226 
_ 864 
543 


36 模型 评估 


3.6.1 模型 估计 


利用 训练 集 的 结果 对 测试 集 进 行 预测 ， 评 佑 测试 集 的 预测 效果 。 在 实现 上 通常 采用 两 种 方法 。 


1. 借 助 score 语 和 名 


代码 清单 3-28 ”模型 打分 -直接 在 Logistic 回 归 过 程 步 中 打分 


proc logistic data-card model5 des; 

model response-balance woe cardtyp woe conab woe edu woe emp woe 

income woe lastact woe otherp woe points woe ' homein | woe age woe conp woe 
tmbank woe/selection-backward slstay-0.01; 

score data- card access5 out-rl; 

run; 


2. 借 助 proc score 过 程 


代码 清单 3-29 ”模型 打分 -单独 打分 


proc logistic data-card model5 des outtest-beta; 

model response-balance woe cardtyp woe conab woe edu woe emp woe 

income woe lastact woe otherp woe points woe homein woe age woe conp woe 
tmbank woe/selection-backward slstay-0.01; 

run; 

proc score data-card access5 out-rl score-beta 

type-parms; 

var balance woe cardtyp woe conab woe edu woe emp woe 


income woe lastact woe otherp woe points woe homein woe age woe conp woe 
tmbank woe; 
run; 


beta 数 据 集 的 结构 如 下 : 


EI re 


| 1 Wm PARKS 0 ks response 0. TET 0. 8582374799 1. 1050688065 


lastact woe points woe 
ESSE . 1.0460758032 1.1059415942 . 0. 9425010638 0.9659124686 1.0013120353 


i | ero TIE 


| 1 |1.0803595818 1.0390168197 -434.9407564 MLE 


"1 数据 集结 果 如 下 : 


F response I response 


1 1 
1 1 
1 Q 
1 1 
1 i 
1 0 
1 1 
D 1 
1 1! 
1 9 
1 z 


3.6.2 ”模型 评估 


P l 


0. 8737190622 


0. 8823634074 
0. 3137121347 
0. 8474818121 
0. 7451739122 
0. 1569382492 

0. 838903508 
0. 9883937924 
0. 7487980096 
0. 4413702585 


0. 85269214 


P_0 

0. 1262809378 
0. 1176365926 
0. 6862878653 
0. 1525181879 
0. 2548260878 
0. 8434617508 
0. 161096492 
0. 4116462476 
0. 2512019904 
0. 5586297415 
0. 14734726 


1. 理 论 基 础 
(1) 混淆 矩阵 


目标 变量 实际 有 0、1 两 个 选项 ， 预 测 后 也 有 两 个 选项 ， 实 际 和 预测 的 匹配 关系 就 是 混淆 矩阵 ， 如 表 3-11 所 示 。 


表 3-11 RB 4E 


0 


TP (True Positive) | FN (FalseNegative) 


FP (FalsePositive) | TN (TrueNagative) 


在 矩阵 中 ，1 经 常 成 为 正 (positive) ，0 称 为 负 (nagative) 。 
TP 表示 实际 为 正 ， 而 预测 为 正 ; 

FN 表示 实际 为 正 ， 而 预测 为 负 ; 

FP 表示 实际 为 负 ， 而 预测 为 正 ; 

TN 表示 实际 为 负 ， 而 预测 为 负 ; 

基于 上 面 的 定义 ， 可 以 构建 如 下 评价 指标 : 


: Accuracy 〈 正 确 率 ) : 模型 总 体 的 正确 率 ， 是 指 模 型 能 正确 预测 1 和 0 的 对 象 数量 与 预测 对 象 总 数 的 比值 ， 如 下 : 


: ERROR rate, misscation (453X E). ， 模 型 总 体 的 错误 率 ， 是 指 模型 能 正确 预测 1 和 0 的 对 象 数 量 与 预测 对 象 总 数 的 比值 ， 即 1 减 去 正确 率 的 差 。 


' Sensitivity (KAJE) ， 又 叫 击 中 率 或 真正 率 ， 模 型 正确 预测 为 1 的 对 象 占 全 部 对 象 中 实际 为 1 的 比值 : 


+EN 


' Specificity (特效 性 ) ， 又 叫 真 负 率 ， 模 型 正确 预测 为 0 的 数量 占 全 部 观察 对 象 中 实际 为 0 的 对 象 数 量 的 比值 : 


IPEP 


Precision (精度 ) ， 是 指 模型 正确 预测 为 1 的 对 象 占 模型 预测 为 1 的 观察 对 象 总 数 的 比值 : 


上 述 的 各 项 指标 ， 从 各 个 角度 对 模型 的 表现 进行 了 评估 ， 在 实际 应 用 场景 中 ， 可 以 有 选择 地 采用 其 中 某 些 指标 。 
制作 方法 : 


因为 模型 预测 的 是 每 个 样本 的 1 的 概率 ， 并 非 直接 预测 为 1， 因 此 需要 设 定 阅 值 。 例 如 下 表 ， 若 阅 值 设 为 0.5， 根 据 计 算 可 以 获得 真实 分 类 (最 后 一 列 ) ， 如 表 3-12 所 示 ， 并 由 此 得 到 后 面 的 混淆 矩 阵 (AI 
-13) . 


Accuary- (8*7) / (8+2+3+7) =0.75 

Missficationz 1-accuary- 0.25 

Sensitivityz8/ (8-3) 0.73 

Specificity=7/ (2+7) -0.78 

Precisionz8/ (8+2) = 

mAn LA Proc logistic model 中 的 MODEL 语 句 的 ctable 选 项 进行 输出 。 


表 3-12 真实 分 类 计算 


D | 预测 target=1 概率 E mm 项 测 target=1 概率 | — 真实 分 类 


(2) ROC 


ROC 曲 线 是 一 种 有 效 比 较 两 个 或 多 个 二 元 分 类 模型 的 可 视 化 工具 ， 如 图 3-12 所 示 。ROC (receiver operating characteristic， 接 受 者 运行 特征 ) 来 源 于 信号 检测 理论 ， 它 显示 了 给 定 模型 的 灵敏 性 
(sensitivity) 与 假 正 率 (false positive，1-specificity) 之 间 的 比较 评定 。 


表 3-13 A HEE 


A KE 


0 
POIBUU ES] f 7 


真正 率 的 增加 是 以 假 正 率 的 增加 为 代价 的 ，ROC 曲 线 下 面 的 面积 就 是 比较 模型 准确 度 的 指标 和 依据 ， 成 为 AUC 统 计量 ， 或 称 C 统 计量 ， 面 积 大 的 模型 对 应 的 模型 准确 度 要 高 ， 也 就 是 择优 应 用 的 模型 ， 
面积 越 接近 于 0.5， 对 应 ， 模 型 的 准确 率 就 越 低 。 


ROC 离 对 角 线 越 近 ， 模 型 的 准确 率 就 越 低 。 


ROC Curve of Fever 


100% 


80% 


60% 


40% 


True Positive Rate(Sensitivity) 


20% 


0% | 
09/0 20% 40% 60% 80% 100% 
Fals Positive Rate (1-Specificity) 


图 3-12 ROCH Z4 


要 绘制 ROC 曲 线 ，ROC 的 横 轴 为 假 正 率 ，falsePositive rate (1-specifity) , ZA HEEZRERIEXE, sensitivity, true positive, 


具体 绘制 时 ， 首 先 要 对 模型 预测 的 response=1 概 率 从 高 到 低 排 序 ， 从 左下 角 开 始 ， 在 此 真正 率 和 假 正 率 都 为 0， 对 每 个 观测 值 实际 的 “ 正 ” 或 “ 负 ” 进 行 ROC 图 形 的 绘制 ， 如 果 此 样本 是 真正 
的 “ 正 ”， 则 在 ROC 曲 线 上 向 上 移动 并 绘制 一 个 点 ; 如 果 此 样本 是 真正 的 “ 负 ”， 则 在 ROC 曲 线 向 右 移动 并 绘制 一 个 点 。 依 次 对 每 个 观察 值 重复 这 个 过 程 。 


ROC 曲 线 可 以 通过 Proc logistic model 中 的 ROC 语 句 实现 。 
(3) KS 曲线 


KS 指 是 一 种 判断 二 元 分 类 预测 模型 准确 度 的 方法 ， 该 方法 来 源 于 统计 学 中 的 Kolmogorov-Smirnov test， 柯 尔 莫 哥 洛 夫 - 斯 米尔 诺 夫 曲线 。KS 统 计量 是 指 KS 曲 线 中 差异 的 最 大 值 ， 在 评价 二 元 分 类 模型 
的 预测 能 力 时 ， 越 大 则 区 分 效果 越 好 ， 通 常 来 讲 大 于 0.2 就 表示 模型 有 较 好 的 预测 性 。 


绘制 过 程 如 下 : 

1) 将 总 体 按照 违约 概率 降序 排列 ; 

2) 将 数据 集 进行 十 等 分 ， 计 算 每 一 等 份 中 违约 、 正 常 的 累计 占 比 ; 
3) 将 这 两 种 累计 的 百分比 绘制 在 同一 张 图 上 。 


绘制 示意 图 如 图 3-13 所 示 。 
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图 3-13 KS 曲线 示例 
KS 统计 量 来 描述 模型 的 质量 ， 取 值 在 0 与 1 之 间 ， 采 用 随机 抽样 时 ，KS 统 计量 为 0， 当 最 优 分 类 时 ，KS 统 计 为 0。 
(4) Lift 图 
表 3-14 将 模型 预测 结果 按照 参与 概率 的 降序 排列 ， 平 均 分 成 10 份 ， 并 统计 每 组 内 的 实际 参与 客户 数 ， 将 之 与 随机 模型 比较 。 其 模型 提升 曲线 如 图 3-14 所 示 。 


表 3-14 LIFTH 
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图 3-14 ”模型 提升 曲线 


提升 度 如 图 3-15 所 示 。 
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图 3-15 LIFTA 


比如 对 于 客户 的 参与 率 为 7%， 对 于 第 一 等 分 的 1000 的 样本 中 ， 实 际 参与 255 人 ， 随 机 参与 的 为 70 人 ,， 


255 +1000 
70 —-1000 


2.SAS 程 序 实 现 及 结果 解读 
(1) 混淆 矩阵 


代码 清单 3-30 ”生成 混淆 矩阵 


proc logistic data-card model5 des ; 

model response-balance woe cardtyp woe edu woe emp woe 

lastact woe otherp woe points woe homein woe age woe /ctablepprob-0.5; 
run; 


TEk 
本 
KE 事件 d R d EÑ 


428 


402 
369 
330 
215 


以 0.3 为 例 转 成 如 表 3-15 所 示 的 混淆 和 矩阵 。 


290 
337 
370 
409 


440 


184 
147 
114 
75 
44 


43-15 


4] 
713 
106 
140 
200 


混淆 矩阵 


14.9 
77. 1 


u P 1 
实际 MEN 


428 (True Positive) 
194 ( FalsePositive) 


] 
0 


(2) ROC 曲 线 


0 


47 (FalseNegative) 
290 ( TrueNagative) 


代码 清单 3-31 LARROCHE 


proc logistic data-card model5 desplots- (roc); 

model response-balance woe cardtyp woe edu woe emp woe 
lastact woe otherp woe points woe homein woe age woe ; 
run; 


proc logistic data-card model5 plots-roc (id-prob); 

model response (event-'1') = balance woe cardtyp woe edu woe / nofit; 
roc'balance' balance woe; 

roc'card type' cardtyp woe; 

roc'edu' edu woe; 
/* | roccontrast reference('K-G Score!) / estimate e;*/ 
run; 


输出 如 图 3-16 和 图 3-17 所 示 。 


“模型 ”的 ROC 曲线 
曲线 下 的 面积 =0.8672 


0.25 0.50 0.75 
1 - 特异 度 


图 3-16 ROCA: 特异 度 vs 灵 敏 度 
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进行 比较 的 ROC 曲线 
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ROC Hk ( TET FH ) 


balance (0.5786) card type (0.5787) 


(3) KS 


代码 清单 3-32 ”生成 KS 


edu (0.6726) 


图 3-17 ROCA: 模型 比较 


输出 结果 如 下 : 


SAS Aij 


NPAR1WAY 过 程 


Kolmogorov-Smirnov 检验 - 计量 P 1 
按 以 下 这 至 分 类 : response 
a | RAHÉ RÁ 
response N 处 的 EDF 高 均 差 
319 0. 153605 -4 9027054 
319 0. 705329 4. 927054 
638 0. 429467 
第 389 个 观测 发 生 最 大 偏差 
“P_1” 的 也 大 从 = 0. 454361 


Kolmogorov-Smirnov 双 梓 本 检验 Cohn) 
KS 10.275862 |D 0. 551724 


KSa (6.967907 Pr > KSa « 000! 


最 终 Ks 曲 线 图 如 图 3-18 所 示 。 


以 下 对 和 象 的 经 验 分 布 : P 1 


Pr > Ksa = . 0001 


0.4 0.6 
预测 概率 : response = 1 


response 


图 3-18 KS 曲线 


3.6.3 ”调整 过 度 抽样 


过 度 抽样 并 非 一 定 要 调整 ， 只 有 对 实际 的 概率 感 兴趣 的 时 候 才 需要 调整 ， 通 常 采 用 平移 法 。 
(1) priorevent 用 法 


代码 清单 3-33 ”过 度 抽样 调整 方法 1 


proc logistic data-card model5 des; 

model response-balance woe..tmbank woe/selection-forward slstay-0.01; 
Score data-card access5 out-rl priorevent-; 

run; 


通过 priorevent 设 定 处 室 数 据 中 坏 客户 的 比例 。 
(2) offset 用 法 
通过 model 语 句 选 项 offset 进 行 设 定 。 


代码 清单 3-34 ”过 度 抽样 调整 方法 2 


data card model5; 

set card model5; 

o££-log ((1-p1) *r1)/ (p1* (1-r1) ; 
run; 


proc logistic data-card model5 des outest-betal; 


model response-balance woe..tmbank woe/offset-off; 
run; i 

proc score data-card access5 out-scored score-betal 
type-parms; 

var balance woe..tmbank woe; 

run; i m 

data scored; 

set scored; 

p=1/ (1+exp (-ins)); 

run; 


3.60.5 ”模型 转换 为 打分 卡 


评分 卡 设 定 的 分 值 刻度 可 以 通过 将 分 值 表示 为 比率 对 数 的 线性 表达 式 。 


Score — 


表达 式 中 的 负 号 可 以 使 得 违约 概率 或 者 反应 概率 越 低 的 情况 下 ， 得 分 越 高 。 设 定 比率 为 6 时 特定 点 的 分 数 为 %， 然 后 比率 为 26 的 点 分 值 为 9s+PDO， 
Bp, 


S — A — Blog(0) 
S + PDO = A-Blog(20) 
~ PDO 


. log(2) 
A = S + Blog(0) 


B 


比如 设 定 比率 为 1: 508}, 43873500, PDO-30, 


则 带 入 计算 入 


score-669.31—99.66*1log(odds) 


diu 


3.7.2 ”模型 的 监测 及 更 新 


为 什么 要 监测 模型 ”主要 有 三 种 因素 会 影响 到 模型 的 准确 性 。 一 是 客户 状态 的 变化 ， 比 如 银行 客户 收入 水 平 的 改变 ， 学 历 水 平 的 改变 ， 或 者 客户 区 域 的 改变 等 ; 二 是 市 场 的 转移 : 新 的 市 场 营 销 策略 ; 
三 是 行业 的 变化 : 新 的 法 律 法 规 。 因 此 为 了 确保 模型 被 正确 的 使 用 ， 必 须 定期 验证 模型 的 适用 性 。 


监测 的 分 类 : 可 以 分 为 实施 前 监测 和 实施 后 监测 。 实 施 前 监测 ， 通 带 用 来 计算 得 分 在 不 同 变量 间 、 同 一 变量 的 不 同 取 值 间 的 分 布 ， 还 可 以 比较 这 些 变量 的 分 配 的 分 值 和 观察 到 的 违约 率 ， 目 的 在 于 验证 


M 


模型 的 稳定 性 ， 另 外 还 可 以 采用 评分 稳定 性 指标 ， 特 征 分 布 指标 ， 在 实施 后 进行 监测 ， 评 估 模 型 的 有 效 性 、 正 确 性 ， 模 型 的 精度 是 否 发 生 显著 性 变化 。 稳 定性 报告 适用 于 评估 和 监测 评分 卡 的 ， 由 于 建 模 时 
使 用 的 是 历史 数据 ， 模 型 的 实施 时 刻 表 的 目的 是 获取 数据 变化 的 时 刻 ， 因 此 需要 生成 一 个 能 够 代表 总 体 的 分 值 分 布 随时 间 的 移动 而 变化 的 指数 表 。 


量 ， 仅 仅 是 在 新 数据 上 重新 估计 模型 的 参数 。 稳 定性 系数 是 计算 实际 的 和 预期 的 分 值 分 布 之 间 差 异 的 一 个 衡量 指标 ， 如 表 3-18 所 示 。 


表 3-18 ”模型 稳定 性 系数 计算 


当 模 型 的 性 能 开始 下 降 时 ， 必 须 重 建 或 者 更 新 模型 ， 重 建 就 意味 着 在 能 够 获得 的 新 数据 上 ， 按 照 本 书 讲 的 数据 整理 、 变 量 筛选 处 理 、 建 模 、 模 型 评估 等 重新 进行 一 遍 。 而 更 新 意味 着 需要 保留 现 有 变 


TET EEE 


总 计 4 993 100% 5513 100.0% 


最 后 一 列 差异 的 计算 公式 为 : 


稳定 性 系数 


0.007 
0.000 
0.008 
0.000 
0.000 
0.001 
0.006 
0.002 
0.000 
0.001 
0.009 


(Recent96-Standard96)*In(Recent9o/Standard'7) 


判断 标准 : 
1) 如 果 稳 定性 指数 小 于 0.1， 则 表明 当前 总 体 相对 于 建 模 时 的 总 体 没有 显著 性 差异 ; 
2) 如 果 稳 定性 指数 大 于 0.25， 则 说 明 当 前 总 体 和 建 模 总 体 发 生 了 显著 变化 ， 建 议 重 新 构建 评分 卡 ; 


3) 如 果 介 于 0.1 到 0.25 之 间 ， 模 型 出 现 了 微小 偏 黎 ， 建 议 对 模型 进行 检查 。 


变量 分 析 报 告 ， 若 当前 客户 群 比 建 模 客户 群 的 分 值 有 所 提高 ， 那 是 什么 原因 使 评分 提高 了 ， 评 分 的 提高 是 否 合理 
的 分 布 变化 会 导致 评分 分 布 的 变化 。 每 个 变量 值 上 的 分 布 、 当 前 分 布 与 标准 分 布 的 差异 计算 方法 如 表 3-19 所 示 。 


， 这 就 需要 变量 分 析 报 告 来 解决 这 个 问题 。 评 分 模型 是 由 若干 个 预测 变量 构成 的 ， 预 测 


表 3-19 单个 变量 变化 对 评分 分 布 的 影响 


Standard% 
oftotal 


Recent% 


oftotal 


JJ JJ [n]. 


计算 方式 为 : (Recent96e-Standard96) * 分 值 


以 上 表 为 例 ， 在 模型 开发 实施 时 ， 自 有 住房 的 客户 比例 大 幅 提升 ， 但 租房 客户 的 比例 在 下 降 ， 叶 致 整体 的 分 值 有 所 提 


是 由 于 银行 加 大 了 对 自 有 住房 客户 群 的 营销 力度 ， 而 导致 了 评分 的 上 升 。 


报表 的 频 度 可 以 结合 业务 知识 及 数据 的 大 体 变化 进行 判断 ， 可 以 选择 按 月 、 按 季 、 按 年 。 另 外 可 以 将 一 段 期 间 的 检测 做 对 分 ， 分 析 是 属于 短期 的 波动 还 是 持续 的 发 展 趋势 。 


38 ”本 章 小 结 


4.1 


通过 本 章 的 学 习 ， 读 者 应 该 可 以 掌握 编制 精准 营销 模型 的 方法 ， 对 于 文中 介绍 的 建 模 步 又， 在 熟悉 的 基础 上 ， 可 以 根据 数据 特点 进行 部 分 调整 ， 比 如 是 先 填充 缺失 值 还 是 先进 
法 是 处 理 二 分 类 问题 的 通用 手法 ， 比 如 对 于 是 否 同意 发 卡 (申请 评分 卡 ) ， 是 否 催收 (催收 评分 卡 ) 等 ,深入 学 习 本 章 ， 则 可 举一反三 ， 触 类 旁 通 。 


特别 声明 ， 本 案例 数据 仅 为 介绍 方法 而 设计 ， 并 非 真实 数据 ， 结 论 不 可 直接 使 用 。 


案例 背景 


变量 粗 筛 。 另 外 上 述 方 


《麦肯锡 全 球 银行 业 报告 (2016) 》 提 出 ， 未 来 银行 必须 向 金融 科技 和 互联 网 金融 的 核心 竞争 力 发 起 挑战 ， 即 通过 推动 全 行 数字 化 战略 ， 以 客户 需求 为 核心 推出 便捷 、 贴 心 的 客户 体验 。 要 提供 便捷 、 
贴心 的 客户 体验 ， 就 需要 以 客户 为 中 心 ， 实 现 客户 全 渠道 、 全 方位 的 接触 式 、 精 准 式 服务 。 提 升 客户 体验 的 基础 就 是 客户 细 分 ， 首 先 要 实现 客户 多 维度 的 细 分 ， 瞄 准 客户 群体 ， 因 此 ， 银 行业 零售 客户 的 客 
户 细 分 ， 主 要 包括 客户 价值 细 分 、 客 户 资产 偏好 细 分 、 客 户 活跃 度 细 分 、 客 户 渠道 偏好 细 分 等 。 本 章 以 某 银 行 零售 客户 的 渠道 偏好 细 分 为 案例 ， 首 先 介绍 聚 类 分 析 的 相关 技术 ， 实 现 按 零 售 客户 渠道 偏好 细 
分 ， 利 用 客户 最 喜欢 的 渠道 进一步 提升 客户 体验 。 下 面 首先 介绍 一 下 ， 聚 类 分 析 的 流程 。 


4.2 ” 聚 类 分 析 流 程 
聚 类 分 析 是 以 物 以 类 聚 为 依据 的 一 种 统计 分 析 方 法 。 聚 类 分 析 要 解决 的 问题 是 事先 不 知道 所 研究 的 问题 应 分 为 几 类 ， 更 不 知道 观测 个 体 的 具体 分 类 情况 ， 其 目的 是 需要 通过 对 观测 数据 进行 分 析 ， 选 择 
一 种 能 够 度量 个 体 间 接近 程度 的 统计 量 ， 从 而 确定 分 类 数目 ， 建 立 一 种 有 效 的 分 类 方法 ， 并 按 接近 程度 对 观测 个 体 给 出 合理 的 分 类 。 


聚 类 分 析 的 整体 过 程 大 致 如 下 : 首先 ， 需 要 进行 变量 的 压缩 ， 在 有 明显 线性 相关 的 变量 中 仪 保 留 一 个 有 代表 性 的 变量 ， 剔 除 多 余 变量 。 变 量 聚 类 VARCLUS 过 程 可 以 帮助 我 们 在 相似 的 变量 群体 中 选 出 具 
有 代表 性 的 变量 。 其 次 ， 在 变量 确定 以 后 ， 需 要 通过 图 形 来 探索 ， 明 确 样本 是 否 有 明显 的 分 类 特征 。 同 时 ， 作 图 还 能 帮助 我 们 辨别 是 否 存 在 不 规则 的 聚 类 特征 ， 便 于 选择 对 应 的 聚 类 方法 。 这 需要 将 多 维 数 
据 转 化 为 两 个 或 者 三 个 维度 以 上 。 主 要 三 种 降 维 方法 包括 : 


- 主 成 分 分 析 (PRINCOMP 主 成 分 过 程 ) ; 
| 多 维 尺度 (MDS 过程) ; 
- 典型 判别 分 析 (CANDISC 过 程 ) 。 


基于 分 类 的 聚 类 算法 ， 比 如 K-means 算 法 要 求 聚 类 数据 是 球形 数据 。 如 果 是 细 长 型 的 数据 或 者 非 凸 型 数据 ， 这 些 算法 的 表现 就 会 相当 差 。 一 个 很 自然 的 变通 想法 就 是 ， 能 不 能 将 非 球 型 数据 变换 成 球形 
数据 呢 ? SAS 的 ACECLUS 过 程 就 可 以 实现 变换 。 


在 确定 最 终 的 转换 变量 以 后 ，SAS 提 供 了 以 下 几 种 聚 类 方法 : 
- 层次 聚 类 法 (CLUSTER 过 程 ) ; 

. 区 均值 聚 类 算法 (FASTCLUS 过 程 ) ; 

- 非 参 数 的 聚 类 算法 (MODECLUS 过 程 ) 。 


因此 ， 根 据 以 上 主要 情况 ， 聚 类 分 析 的 基本 流程 总 结 为 以 下 步骤 ， 如 图 4-1 所 示 。 


数据 标准 化 
STDIZE 步 又 


VARCLUS 步骤 


降 维 与 可 视 化 PRINCOMP, 
MDS, CANDISC 


ACECLUS 


FACTOR 过 程 离散 聚 类 
系统 聚 类 Im 
CLUSTER 最 优化 聚 类 
FASTCLUS MODECLUS 


图 4-1 聂 类 分 析 整 体 过 程 


1) 数据 标准 化 。 在 进行 聚 类 分 析 时 ， 方 差 大 的 变量 比方 差 小 的 变量 对 分 类 结果 的 影响 要 大 ， 因 此 在 进行 分 析 之 前 一 般 需 要 先 对 数据 进行 标准 化 处 理 。SAs 软 件 的 CLUSTER 过 程 有 STD 选 项 可 以 直接 对 数 
据 进 行 标准 化 变换 ， 而 FASTCLUS 过 程 则 没有 类 似 的 选项 ， 因 此 ， 一 般 在 做 聚 类 分 析 前 ， 都 需要 单独 进行 标准 化 数据 处 理 ， 其 他 统计 软件 (如 SPss 等 ) 可 能 将 标准 化 过 程 直接 设置 在 聚 类 分 析 的 模块 中 ， 但 
SAs 没 有 ， 所 以 需要 单独 进行 。 


2) 变量 选择 。 变 量 的 选择 通常 使 用 变量 聚 类 的 方法 ， 将 相似 的 变量 聚 为 一 类 ， 在 每 一 类 中 选择 比较 有 代表 性 的 变量 ， 来 代表 该 类 。 其 他 教科 书 中 写 到 在 SAs 中 主要 通过 Varclus 过 程 和 Cluster 过 程 实 
现 。 其 中 利用 Varclus 过 程 对 变量 聚 类 的 方法 主要 分 为 主 分 量 聚 类 分 析 和 重心 分 量 分 析 法 ， 在 实际 工作 中 一 般 使 用 该 过 程 。 利 用 Cluster 过 程 进行 变量 聚 类 时 ， 需 要 先 对 数据 集 进行 转 置 ， 然 后 直接 利用 欧 氏 
距离 和 Cluster 过 程 或 者 把 相似 系数 转化 为 距离 矩阵 后 ， 再 用 Cluster 过 程 进行 聚 类 。 该 方法 只 能 处 理 小 样本 数据 ， 在 实际 商业 数据 分 析 中 很 少 使 用 。 


3) 变量 降 维 与 可 视 化 。 由 于 每 种 聚 类 方法 的 适用 的 数据 类 型 不 同 ， 不 同形 状 的 数据 应 采用 不 同 的 聚 类 方法 ， 因 此 ， 在 进行 聚 类 分 析 前 ， 先 通过 Princomp 过 程 得 到 主 成 分 变量 ， 然 后 画 散 点 图 ， 直 观 猜 
一 下 类 的 类 型 及 个 数 ， 再 进行 数据 可 视 化 。 图 4-2 所 示 是 数据 挖掘 技术 网 站 scikit-learn 提 供 的 聚 类 效果 图 的 一 部 分 。 其 模拟 了 四 种 带 见 的 二 维 数据 形状 并 比较 了 不 同 聚 类 方法 的 适用 情况 。 其 中 前 三 种 方法 
都 指定 聚 类 数量 ， 密 度 聚 类 法 不 需要 事先 指定 聚 类 数量 。 可 以 看 出 K-means 法 在 数据 表现 出 椭圆 球形 的 情况 下 可 以 进行 很 好 的 聚 类 ， 不 过 当 聚 类 数量 指定 错误 时 ， 聚 类 结果 是 错误 的 。 这 要 求 在 使 用 K- 
means 聚 类 之 前 ， 必 须 进 行 变量 降 维 与 可 视 化 。 系 统 聚 类 (此 处 是 Ward 法 ) 在 数据 是 凸 或 凹 的 形状 时 都 适用 ， 但 是 该 方法 不 能 用 于 大 样本 的 情况 。 谱 聚 类 (采用 径 向 基 作 为 核 函 数 ) 的 适用 范围 更 广 一 
些 ， 可 以 对 说 套 类 型 的 数据 进行 很 好 的 分 离 。 对 于 球形 类 的 数据 ， 倾 向 于 把 中 心 数据 分 为 一 类 ， 外 围 数 据 分 为 一 类 。 密 度 聚 类 不 需要 事前 指定 聚 类 数量 ， 而 且 对 前 三 种 数据 分 布 类 型 都 可 以 得 到 较 好 的 聚 类 
效果 。 图 4-2 所 示 的 前 三 类 数据 分 布 其 实 是 比较 理想 的 状态 ， 在 一 般 商 业 聚 类 中 ， 均 匀 分 布 是 一 种 比较 多 见 的 数据 分 布 类 型 ， 因 此 K-means 和 两 步 法 在 商业 运用 中 较 多 ， 本 书 只 介绍 这 两 种 方法 。 谱 聚 类 和 
密度 聚 类 在 实际 运用 中 很 少 使 用 ， 本 书 不 做 讲解 ， 但 是 数据 可 视 化 方法 是 所 有 聚 类 的 核心 ， 掌 握 该 方法 ， 之 后 再 选择 是 K-means、 谱 聚 类 还 是 密度 聚 类 。 


4) 数据 转换 。 大 多 数 的 聚 类 方法 对 于 球状 的 数据 可 以 进行 很 好 的 分 类 ， 但 是 对 于 被 拉 长 的 椭 球 状 的 数据 的 分 类 效果 则 不 是 很 好 ， 这 时 就 需要 先 对 数据 进行 线性 变化 ， 再 进行 聚 类 分 析 。SAS 的 
ACECLUS 过 程 用 于 对 数据 进行 预 处理 ， 以 便 更 好 地 用 CLUSTER 或 FASTCLUS 过 程 进 行 聚 类 分 析 。 


4.3 ”数据 标准 化 


4.3.1 标准 化 介绍 


聚 类 分 析 的 本 质 是 将 关系 密切 或 者 关系 相近 的 样本 聚 为 一 类 ， 研 究 样本 聚 类 的 实质 就 是 研究 样本 之 间 的 亲 中 天 系 。 而 描述 样本 之 间 杀 中 关 系 最 典型 的 就 是 距离 。 由 于 所 考察 的 聚 类 变量 之 间 常 常 存 人 在 量 
纲 不 同 、 数 量 级 不 同 ， 取 值 范围 差异 很 大 的 问题 ， 不 便于 相互 间 的 比较 。 


K-means 


曲线 
(HEIE ) 


球形 
(KIJE ) 


(引用 : http://scikit-learn.org/stable/modules/clustering.htmlZclustering ) 


图 4-2 ”有 聚 类 分 析 整 体 过 程 


示例 : 这 里 以 银行 信用 卡 客户 数据 为 例 ， 变 量 CustID 为 客户 编号 ，CustAsset 为 最 近 一 个 月 客户 信用 卡 账 户 余额 月 日 均 (万 元 ) ，CustTerm 为 信用 卡 账户 的 开户 时 长 ， 单 位 月 ，CustAssetY 为 
CustAsset 单 位 转换 为 元 以 后 的 变量 ， 如 表 4-1 所 示 。 


表 4-1 数据 标准 化 示例 


客户 号 账户 余额 月 日 均 (万 元 ) 开户 时 长 账户 余额 月 日 均 (元 ) 
(£5) 
客户 号 账户 余额 月 日 均 (万 元 ) 开户 时 长 账户 余额 月 日 均 GU) 


分 别 通 过 SAS 的 Distance 过 程 步 和 Cluster 过 程 步 选择 以 上 三 个 中 不 同 的 变量 进行 分 析 ， 结 果 如 表 4-2 所 示 。 


表 4-2 ”数据 标准 化 聚 类 结果 比较 


CustID Cust! Cust2 Cust3 


CustAsset Custi 0 

E es Custl 和 Cust2 T1 753€ 7j —2S, Cust3 和 
Pus 

C tT Cust3 Cust4 EJ 一 类 

ustTerm 

Cust4 
CustID Cust1 

CustAsset Custi 0 

十 Cust2 100 Cust2 和 Cust4 首先 聚 为 一 类 

CustTermY vues ins 


Cust4 103 


数据 结果 显示 ， 虽 然 使 用 的 是 同一 数据 ， 只 是 数据 的 量 纲 有 所 不 同 (一 个 使 用 的 是 万 元 ， 一 个 使 用 的 是 元 ) ， 导 致 的 结果 完全 不 同 。 因 此 ， 在 进行 聚 类 分 析 前 需要 对 变量 进行 标准 化 处 理 。 
如 何 做 标准 化 处 理 ? 
设 有 n 个 样本 ， 每 个 样本 观测 m 项 指标 ， 即 m 个 变量 ， 各 观测 值 记 为 Xij (i=1，2，3，…，n; j=1，2，3,，…，m) 。 各 指标 的 均值 、 标 准 差 和 极 差 计算 如 下 : 


H 


均值 X, -—5 X, .,j-1, 2, 
n 


T] 3 
i=] 


标准 差 8 


极 差 R= max(X), - min(X),, j=1, 2, 


具体 的 变换 方法 包括 : 
1) 中 心 化 变换 : 使 变量 均值 为 0; 


变换 方法 为 : 各 指标 均 减 去 本 指标 的 均值 。 即 
新 变量 EX; =X; X, ji-1,2,:, n; J=1, 2, 


变换 后 数据 的 均值 为 0， 有 量 纲 ， 且 其 协 方差 阵 与 变换 前 相同 。 
2) 标准 化 变换 : 使 变量 均值 为 0， 标 准 差 为 1; 


变换 方法 为 : 各 指标 均 减 去 本 指标 的 均值 后 ， 除 以 其 标准 差 。 即 


新 变量 X; A, i-1, 2, n; j=1, 2, m 


变换 后 变量 均值 为 0， 标 准 差 为 1， 无 量 纲 。 
3) 极 差 变换 : 使 变量 最 小 值 为 0， 最 大 值 为 1。 


变换 方法 为 : 各 指标 均 减 去 本 指标 的 最 小 值 ， 然 后 除 以 极 差 。 即 


变换 后 变量 的 取 值 范围 在 0 到 1 之 间 ， 极 差 为 1， 无 量 纲 。 


一 般 认为 简单 的 极 差 变 换 要 优 于 标准 化 变换 。 


4.3.2 ”标准 化 实现 


SAS 提 供 了 专门 的 Proc 步 来 实现 标准 化 过 程 ， 具 体 如 下 : 


代码 清单 4-1 数据 标准 化 代码 


Proc stdize method=method<options>; 

var variable-list; 

run; 

/* 注 释 */ 

1. Proc Stdize 语句 

Data-Sas 数据 集 ----- 给 出 该 过 程 使 用 的 数据 集 名 字 。 

Out= Sas 数据 集 ----- 给 出 标准 化 变量 的 新 Sas 数 据 集 名 字 。 

thod- -指定 标准 化 处 理 的 方法 ， fi Mean, Median, Sum, Euclen, Ustd, Std, Range, Midrange, Maxabs, Iqr, Mad, Abw, Ahuber, Awave, Agk, Spacing» 
2 Varig 


指定 标准 化 的 变量 ， 通 常 只 能 为 数值 变量 。 


pn 


SAS 提 供 了 一 系列 的 标准 化 方法 和 一 些 常 用 的 标准 化 方法 ， 如 均值 标准 化 、 中 位 数 标准 化 、 正 态 标准 化 、 胡 贝尔 的 估计 标准 化 、Tukey 的 biweight 估 计 标 准 化 等 均 可 在 stdize 程 序 中 实现 。 主 要 通过 位 置 
测量 参数 和 尺度 测量 参数 控制 ， 具 体格 式 如 下 : 


add + ( original — location ) * mutiply 
result = ——————————————————— 
scale 


具体 参数 说 明和 SAs 提 供 的 标准 化 一 览 表 ， 如 表 4-3 和 表 4-4 所 示 。 


表 4-3 SAS 系 统 stdize 语 名 参数 说 明 


result- 最 终结 果 值 原始 数值 
add= 加 上 一 个 参数 值 (ADD= option) 位 置 测量 参数 
multiply= 乘 以 一 个 参数 值 (MULT= option) 尺度 测量 参数 


表 4-4 SAS 提 供 的 标准 化 方法 一 览 表 (Proc Stdize) 


44 ”变量 聚 类 


量 聚 类 又 称 R 型 聚 类 ， 是 聚 类 分 析 的 一 种 ， 主 要 用 来 通过 变量 间 的 相似 程度 进行 分 类 ， 将 关系 较 近 的 变量 归 为 同一 类 。 众 所 周知 ， 所 有 的 数据 分 析 面临 的 首要 任务 就 是 变量 压缩 ， 消 除 变量 间 的 共 线 
性 。 而 变量 聚 类 就 是 将 变量 按照 其 特征 进行 分 类 来 压缩 变量 和 消除 共 线 性 的 一 种 统计 分 析 方 法 。 
基本 思想 : 先 把 k 个 变量 视 为 一 类 ， 然 后 用 主 成 分 分 析 法 将 指标 分 解 到 若干 个 类 ， 分 类 的 原则 是 使 每 一 类 的 类 内 指标 总 方差 尽 可 能 地 被 该 类 的 类 成 分 所 解释 。 当 每 一 类 的 类 内 指标 总 方差 被 类 成 分 所 解释 
的 比例 满足 事先 给 定 的 要 求 时 ， 则 聚 类 停止 ; 否则， 对 比例 较 小 的 类 再 继续 进行 分 解 ， 直 到 所 有 类 的 类 内 指标 总 方差 被 类 成 分 所 解释 的 比例 达到 事先 给 定 的 要 求 为 止 。SAS 软 件 提供 了 VARCLUS 过 程 来 实现 
该 目的 ， 其 可 以 将 变量 划分 到 不 重 苔 的 类 ， 每 一 个 类 可 以 用 来 解释 一 个 维度 。 在 这 些 不 重 苔 的 类 中 ， 各 变量 是 高 度 相关 的 ， 可 以 选择 一 个 变量 来 代表 整个 类 的 变量 ， 这 样 不 但 对 变量 进行 了 压缩 ， 同 时 也 掏 
除了 变量 间 的 共 线 性 问题 个 类 中 选择 代表 变量 的 时 候 ， 首 要 考虑 的 是 变量 的 业务 含义 是 否 具有 很 好 的 解释 性 ， 选 择 有 较 好 业务 含义 的 变量 。 其 次 ， 可 以 参考 1-R*ratio，1-R*owncluster 值 越 小 ， 代 表 
该 变量 与 自己 所 在 的 类 有 越 强 的 相关 性 ; 同时 ，1-R<nextclosestcluster 值 越 大 ， 代 表 该 变量 与 自己 最 近 的 类 相关 性 越 弱 。 因 此 ， 如 果 两 个 变量 均 具 有 较 好 的 业务 解释 性 的 情况 下 ， 选 择 1-R2ratio 值 越 小 越 
Wf, 


1 — R^owncluster 


| — R^ratio = 一 
| - R" nextclosestcluster 


量 聚 类 又 称 R 型 聚 类 ， 是 聚 类 分 析 的 一 种 ， 主 要 用 来 通过 变量 间 的 相似 程度 进行 分 类 ， 将 关系 较 近 的 变量 归 为 同一 类 。 众 所 周知 ， 所 有 的 数据 分 析 面 临 的 首要 任务 就 是 变量 压缩 ， 消 除 变量 间 的 共 线 
性 。 而 变量 聚 类 就 是 将 变量 按照 其 特征 进行 分 类 来 压缩 变量 和 消除 共 线 性 的 一 种 统计 分 析 方 法 。 
基本 思想 : 先 把 Kk 个 变量 视 为 一 类 ， 然 后 用 主 成 分 分 析 法 将 指标 分 解 到 若干 个 类 ， 分 类 的 原则 是 使 每 一 类 的 类 内 指标 总 方差 尽 可 能 地 被 该 类 的 类 成 分 所 解释 。 当 每 一 类 的 类 内 指标 总 方差 被 类 成 分 所 解释 


的 比例 满足 事先 给 定 的 要 求 时 ， 则 聚 类 停止 ; 否则， 对 比例 较 小 的 类 再 继续 进行 分 解 ， 直 到 所 有 类 的 类 内 指标 总 方差 被 类 成 分 所 解释 的 比例 达到 事先 给 定 的 要 求 为 止 。SAS 软 件 提供 了 VARCLUS 过 程 来 实现 
该 目的 ， 其 可 以 将 变量 划分 到 不 重 赤 的 类 ， 每 一 个 类 可 以 用 来 解释 一 个 维度 。 在 这 些 不 重 埃 的 类 中 ， 各 变量 是 高 度 相关 的 ， 可 以 选择 一 个 变量 来 代表 整个 类 的 变量 ， 这 样 不 但 对 变量 进行 了 压缩 ， 同 时 也 吻 


除了 变量 间 的 共 线性 问题 。 在 每 个 类 中 选择 代表 变量 的 时 候 ， 首 要 考虑 的 是 变量 的 业务 含义 是 否 具有 很 好 的 解释 性 ， 选 择 有 较 好 业务 含义 的 变量 。 其 次 ， 可 以 参考 1-Rcratio，1-Rzowncluster 值 越 小 ， 代 表 
该 变量 与 自己 所 在 的 类 有 越 强 的 相关 性 ; 同时 ，1-R2nextclosestcluster 值 越 大 ， 代 表 该 变量 与 自己 最 近 的 类 相关 性 越 弱 。 因 此 ， 如 果 两 个 变量 均 具 有 较 好 的 业务 解释 性 的 情况 下 ， 选 择 1-R<ratio 值 越 小 越 
Wf, 


1 — R^owncluster 


| — R^ratio = 一 
| - R" nextclosestcluster 


44.2. ”变量 聚 类 基本 步 又 


通过 系统 聚 类 法 进行 变量 聚 类 分 析 的 基本 步骤 
1) 确定 类 分 量 (第 一 主 成 分 ) 所 解释 的 百分比 最 小 值 (percent=n) 或 者 第 二 主 成 分 的 特征 根 最 大 值 (maxeigen=n) ; 


2) 将 所 有 指标 视 为 一 类 ， 计 算 类 内 指标 的 总 体 方差 被 类 主 成 分 所 解释 的 比例 。 若 此 比例 大 于 或 等 于 规定 的 值 ， 则 聚 类 停止 ; 否则， 继续 下 一 步 。 而 对 于 使 用 特征 根 时 ， 同 样 先 把 所 有 变量 视 为 一 类 ， 计 
算得 到 主 成 分 ， 此 次 关注 第 二 大 主 成 分 的 特征 值 。 当 第 二 大 主 成 分 的 特征 值 大 于 设 定 的 阔 值 时 ， 我 们 认为 该 变量 类 至 少 可 以 被 两 个 主要 的 维度 (前 两 个 主 成 分 ) 解释 ， 因 此 该 变量 组 可 以 继续 被 分 裂 为 两 
类 ， 不 断 重复 这 个 过 程 ， 否 则 停止 。 一 般 情况 下 ， 我 们 设 定 比例 的 立 值 为 0.9， 第 二 特征 根 的 立 值 为 0.7。 


3) 继续 分 解 ， 将 一 类 分 解 成 两 类 ， 计 算 每 一 类 指标 总 体 方差 被 类 内 变量 多 解释 的 比例 ， 如 果 满 足 此 前 设 定 的 标准 ， 则 聚 类 停止 ， 否 则 ， 继 续 分 解 成 更 多 类 。 


44.3 ”SAsS 实 现 变量 聚 类 


变量 聚 类 主要 通过 SAs 的 VARCLUS 过 程 步 实现 ， 它 首先 将 全 部 作为 一 个 类 ， 再 根据 一 定 的 原则 进行 类 的 拆 分 ， 具 体 的 原则 包括 通过 总 体 方差 被 类 内 变量 所 解释 的 比例 大 于 规定 值 (选项 Proportion= 设 
Bi) 或 者 是 第 二 特征 根 大 于 规定 值 (选项 MAXEIGEN= 设 置 ) ， 其 实 这 两 个 选项 是 可 以 通过 主 成 分 分 析 来 查看 并 互相 转换 。 同 时 ， 这 里 需要 注意 的 是 对 于 存在 缺失 值 的 观测 ， 该 过 程 步 直 接 忽略 ， 不 参与 计 
算 。 该 过 程 所 进行 的 分 类 ， 实 际 上 是 将 类 内 的 变量 组 成 一 个 线性 组 合 ， 一 般 这 个 线性 组 合 是 第 一 主 成 分 。 在 一 般 的 主 成 分 分 析 中 ， 所 有 成 分 均 通 过 相同 变量 的 转换 而 来 ， 第 一 主 成 分 、 第 二 主 成 分 乃至 其 他 
所 有 主 成 分 均 是 正 交 关系 。 但 VARCLUS 过 程 中 ， 不 同类 的 主 成 分 是 从 不 同 变 量 组 合 转换 而 来 的 ， 某 个 聚 类 的 主 成 分 可 能 与 另 一 个 类 的 主 成 分 之 间 不 是 正 交 ， 而 是 有 关联 的 。 因 此 ，VARCLUS 算 法 是 一 种 斜 


交 分 量 分 析 。 


x 


代码 清单 4-2 SAS 实现 变量 聚 类 


/xxxx1 步 : 获取 变量 ****/ 

libname CLUSDATA "F:\【99 培 训 及 写 书 】\CLUS_DATA"; 

run; 

proc contents data- CLUSDATA.Clus mobcust noprint out-temp var; 

run; 

/****2 步 : 将 变量 名 称 赋 给 宏 变 量 *xxx/ 

proc sql; 

select name into:var separated by ' ' 

from temp var WHERE substr (name,1,5)-"THMON 

/* 考 虑 到 数据 挖掘 过 程 中 变量 多 达 几 百 个 ， EERDE, 牙 里 仅 取 三 个 月 内 相关 变量 进行 分 析 展 示 */ 
quit; 

$put &var; 

/xxxx3 步 : 用 主 成 分 分 析 降 维 ck / 

ods ht Ens 

ods rtf; 
proc princomp data-clusdata.Clus mobcust out-out prin; 

var &var; 

run; 

/xxxx4 步 ， 主 成 分 聚 类 法 -- 最 小 解释 比例 xxxx/ 

proc varclus data-clusdata.Clus mobcust proportion-0.7 outtree-tree prin; 
var &var; i 


run; 

/****5 步 : 主 成 分 聚 类 法 -- 最 大 类 数 ****/ 

proc varclus data=clusdata.Clus mobcust maxc=10 outtree=tree prin; 
var &var; 


run; 

/xxxx6 步 : 主 成 分 聚 类 法 -- 最 大 第 二 主 成 分 特征 根 ****/ 

proc varclus data=clusdata.Clus mobcust maxeigen-1 outtree-tree prin; 
var &var; B i 
run; 
/xxxx7 步 : 重心 分 量 聚 类 法 -- 最 小 解释 比例 ****/ 

proc varclus data=clusdata.Clus mobcust centroid proportion=0.7 outtree=tree prin; 
var &var; B E 
run; 
/xxxx8 步 :重心 分 量 聚 类 法 -- 最 大 类 数 *xxx/ 

proc varclus data-clusdata.Clus mobcust centroid maxc-10 outtree-tree prin; 
var &var; i i 


ods html close; 
ods rtf close; 


上 述 代码 中 ， 第 1 和 第 2 步 为 变量 提取 步 ， 主 要 是 将 变量 名 称 赋值 给 宏 变 量 ; 第 3 步 主要 是 进行 主 成 分 分 析 的 测试 ， 可 以 通过 主 成 分 分 析 来 查看 如 果 要 能 够 解释 总 体 方差 的 百分比 例 ， 所 对 应 的 特征 根 的 
值 ; 第 4 ~ 6 步 中 varclus 默 认 使 用 的 是 主 成 分 聚 类 法 ， 分 别 使 用 不 同 的 选项 进行 设置 ， 主 要 如 下 : proportion=0.7 设 置 最 小 解释 比例 ，maxc= 10 设 置 最 大 类 数 ，maxeigen= 1 设置 最 大 第 二 特征 根 ; 第 7 和 第 
8 步 使 用 重心 分 量 法 ， 通 过 选项 centroid 来 设 定 ， 在 VALCLUS 过 程 中 默认 使 用 主 成 分 聚 类 法 ， 如 果 增 加 选项 centroid 则 表示 使 用 重心 分 量 聚 类 法 。 


图 4-3 所 示 是 分 解法 进行 聚 类 分 析 的 第 一 步 ， 先 将 24 个 变量 聚 为 一 类 ， 当 把 这 24 个 变量 聚 为 一 类 的 时 候 ， 其 第 二 大 特征 根 是 1.9076， 且 所 能 解释 的 方差 仅 为 3.296313， 占 总 方差 的 13.73% (小 于 设 定 值 
0.7) ， 因 此 需要 将 这 一 类 做 进一步 的 分 裂 。 
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区 主 成 分 聚 类 分 析 


LIT 
THEE  31EN 


1 个 聚 类 的 聚 类 汇总 
聚 类 偏差 | 解释 的 偏差 erum 第 二 个 特征 值 


EV IM 


解释 的 总 偏差 = 3.296 313 比例 = 0.137 3 
将 拆 分 聚 类 1, 因为 它 有 最 小 的 解释 仿 差 比例 0.137 346 (小 于 PROPORTION=0.7 值 )。 


图 4-3 ”变量 聚 类 分 析 第 一 步 结果 


如 图 4-4 所 示 ， 将 先前 的 1 类 分 裂 为 2 类 。 结 果 表 明 ， 第 一 类 中 有 8 个 变量 ， 第 二 类 中 有 16 个 变量 ， 此 时 解释 的 总 方差 为 5.041926， 占 总 方差 的 21.01%。 


2 个 聚 类 的 聚 类 汇总 
ORAE | 解释 的 偏差 | 解释 的 比例 | 第 二 个 特征 值 


/ NINEMECIHNIINESUIN 


解释 的 总 偏差 = 5.041 926 比例 — 0.210 1 


图 4-4 ”变量 聚 类 分 析 第 一 步 结果 


所 得 两 个 变量 艇 的 结果 ， 如 表 4-5 所 示 。 
表 4-5 第 一 次 变量 桶 类 结果 
2 TRX R* 
聚 类 变量 下 一 个 最 靠近 的 
Cluster 1 | THMON ATM SAVE AMT 0.081 5 0.491 0 
THMON ATM SAVE CNT 0.060 9 0.479 6 


THMON MBANK CHARGE AMT 0.564 7 0.045 4 0.456 0 
THMON MBANK CHARGE CNT 0,263 7 0.011 6 0.441 9 


(5) 


1-R' Et 


2 TRÆ R 


办 
THMON MBANK FEE AMT 0.1352 0.880 9 
THMON MBANK PAY TX AMT 0.998 2 
Cluster2| THMON ATM DRAW AMT 0.709 7 
THMON ATM TRAN AMT 0.922 8 
THMON ATM TRAN CNT 0.966 9 
THMON CNTER DRAW AMT 0.9510 
THMON CNTER DRAW CNT 0.954 8 
THMON CNTER SAVE AMT 0.806 7 
THMON CNTER SAVE CNT 0.895 0 
THMON CNTER TRAN AMT 0.998 1 
THMON CNTER TRAN CNT 0.999 2 
THMON MBANK PAY TX CNT 0.978 2 
THMON MBANK TRAN AMT 0.612 6 
THMON MBANK TRAN CNT 0.673 4 


THMON WBANK TRAN CNT 0.009 2 0.833 2 


以 上 是 关于 聚 类 结果 合理 性 的 分 析 结 果 ， 主 要 考察 的 指标 有 : 变量 与 本 类 主 成 分 之 间 的 相关 系数 的 平方 (R-squared with Own Cluster) ， 变 量 与 相 邻 类 的 类 成 分 之 间 的 相关 系数 的 平方 (R-squared 
with Next Closest) 和 比值 (1-R< 比 ) 。 根 据 上 面 的 结果 ， 以 变量 THMON_ATM_SAVE_AMT (最 近 三 个 月 ATM 机 的 存款 金额 ) 为 例 ， 在 第 1 类 中 ， 它 与 第 1 类 成 分 之 间 的 相关 系数 的 平方 是 0.5490 ( 称 为 
R-squared with Own Cluster) ， 该 值 越 大 ， 说 明 分 类 越 合 理 ; 变量 THMON_ATM_SAVE_AMT (最 近 三 个 月 ATM 机 的 存款 金额 ) ， 在 第 1 类 中 ， 它 与 相 邻 类 (这 里 是 第 2 类 ) 成 分 之 间 的 相关 系数 的 平方 
是 0.0815 ( 称 为 R-squared with Next Closest) ， 该 值 越 小 ， 说 明 分 类 越 合 理 。 最 后 一 列 的 比值 由 同一 指标 的 变量 与 本 类 主 成 分 之 间 的 相关 系数 的 平方 (R-squared with Own Cluster) ， 变 量 与 相 邻 类 
的 类 成 分 之 间 的 相关 系数 的 平方 (R-squared with Next Closest) 计算 而 来 ， 如 变量 THMON ATM _SAVE_AMT (最 近 三 个 月 ATM 机 的 存款 金额 ) 对 应 的 值 为 (1-0.5490) / (1-0.0815) =0.4910， 该 值 
越 小 ， 表 明 分 类 越 合理 。 从 最 后 一 列 可 以 看 出 ， 很 多 比值 比较 大 ， 说 明 这 24 个 变量 分 为 两 类 是 不 太 合适 的 ， 需 要 进行 进一步 分 类 。 


表 4-6 所 示 为 标准 化 变量 预测 类 成 分 的 标准 回归 系数 。 


表 4-6 第 一 次 变量 聚 类 结果 标准 化 评分 系数 


标准 化 评分 系数 


THMON ATM DRAW AMT 0.228 876 
THMON ATM DRAW CNT 0.201 108 
THMON ATM SAVE AMT 0.000 000 
THMON ATM SAVE CNT 0.000 000 
THMON ATM TRAN AMT 0.115 168 
THMON ATM TRAN CNT 0.074 962 
THMON CNTER DRAW AMT 0.092 521 
THMON CNTER DRAW CNT 0.087 715 
THMON CNTER SAVE AMT 0.185 399 
THMON CNTER SAVE CNT 0.135 419 
THMON CNTER TRAN AMT 0.018 079 
THMON CNTER TRAN CNT 0.011 697 
THMON MBANK CHARGE AMT 0.000 000 
THMON MBANK CHARGE CNT 0.000 000 
THMON MBANK FEE AMT 0.000 000 
THMON MBANK FEE CNT 0.000 000 
THMON MBANK PAY TX AMT 0.000 000 
THMON MBANK PAY TX CNT 0.060 385 
THMON MBANK TRAN AMT 0.269 109 
THMON MBANK TRAN CNT 0.253 845 
THMON POS AMT 0.113 713 
THMON POS CNT 0.000 000 
THMON WBANK TRAN AMT 0.211 596 
THMON WBANK TRAN CNT 0.170 615 


其 中 聚 类 “1” “2” 分 别 表示 第 1 类 成 分 与 第 2 类 成 分 ， 值 得 注意 的 是 在 各 行 中 ， 只 能 有 1 个 数 不 为 0， 其 余 值 均 为 0。 若 设 C1、C2 分 别 为 第 1 成 分 和 第 2 成 分 ， 则 : 
C1=0.285684*THMON_ATM_SAVE AMT+0.285829*THMON_ATM_SAVE_CNT+...+0.020026THMON_MBANK _PAY TX AMT+0.097610THMON_POS_CNT 


C2=0.228876THMON ATM DRAW AMT+0.201108THMON ATM DRAW CNT+...+0.211596THMON WBANK TRAN AMT+0.170615THMON WBANK TRAN _ CNT 


如 表 4-7 所 示 ， 最 终 根据 设 定 的 阔 值 ，24 个 变量 生成 17 个 类 。 以 上 结果 中 第 2 列 由 聚 类 解释 的 总 偏差 被 分 为 17 个 类 时 各 类 分 别 能 解释 的 总 方差 的 百分比 ; 第 3 列 为 分 为 17 个 类 时 各 类 分 别 能 解释 的 方差 占 
全 部 变量 总 方差 的 百分比 ; 第 4 列 为 类 成 分 能 解释 的 方差 的 最 小 百分比 ; 第 5 列 为 该 类 的 第 二 大 特征 根 ; 第 6 列 为 某 变量 与 其 所 在 类 成 分 相关 性 最 小 的 相关 系数 的 平方 ; 最 后 一 列 为 各 变量 与 所 在 类 的 (1- 
R2) 与 最 邻近 类 的 (1-R2) 的 最 大 比值 。 


表 4-7 聚 类 分 析 总 结 表 


总 偏差 仿 差 的 比例 最 小 比例 第 二 大 特征 值 最 小 R? 
Tosno 
Tarom 


OIl IAJ | 上 |w | N 


15 20.37892 1 0.849 1 0.635 5 0.728 921 0.6355 0.420 3 
16 21.10784 3 0.879 5 0.671 1 0.657 711 0.671 1 0.356 2 
17 Z1,7025252 3 0.906 9 0.717 2 0.565 559 0.717 2 0.289 9 


4.5 ”变量 降 维 与 可 视 化 


4.5.1 图形 化 探索 


可 视 化 展示 是 数据 探索 中 使 用 的 一 个 非常 重要 的 方法 ， 其 在 聚 类 分 析 的 类 的 初步 探索 中 尤为 重要 。 一 般 我 们 可 以 通过 可 视 化 来 判断 类 的 数量 ， 对 于 比较 直观 的 分 类 ， 通 过 肉眼 就 可 以 很 清楚 地 分 辨 出 类 
的 多 少 和 类 与 类 之 间 的 分 界 。 但 是 对 于 很 多 聚 类 分 析 ， 类 与 类 之 间 大 小 形状 均 不 相同 ， 类 与 类 之 间 还 存在 重 蔷 现象。 甚至 有 些 样 本 不 同 的 分 类 方法 会 将 其 归 为 不 同 的 类 。 可 视 化 可 以 帮助 我 们 展示 样本 分 布 
情况 ， 这 有 助 于 帮助 我 们 鉴别 不 规则 类 ， 同 样 有 助 于 帮助 我 们 选择 不 同 的 聚 类 技术 。 可 视 化 主要 通过 SAS 系 统 提供 的 过 程 步 ， 即 PLOT 和 GPLOT 过 程 实现 。 


如 图 4-5 所 示 ， 通 过 SAs 可 视 化 ， 我 们 可 以 清晰 地 分 辨 出 该 数据 可 以 大 致 分 为 3 大 类 。 
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图 4-5 ” 聚 类 可 视 化 图 形 探索 


代码 清单 4-3 SAS 数据 探索 可 视 化 


Ods listing close; 
Ods html; 
/xxxx1 步 : 获取 观察 ****/ 
data plot test; 
n=50; scale=1; 
x in-0;y in-0;c-1;link generate; 
X in-9;y in-1;c-2;link generate; 
x in-4;y in-9;c-3;link generate; 
keep x y c; 
stop; 
generate: 
do i-1to n; 


x-rannor (1)*scale*x in; 
y-rannor(1)*scale*ty in; 
output; 
end; 
return; 


run; 

/xxxx2 步 : 制作 散 点 图 xxxx/ 

Goption reset-all hsize-5 vsize-4; 
footnote ' 初 步 处 理 -- 可 视 化 展示 ' ; 

symboll color=blue interpol-none value-triangle width-1.5; 
symbol2 color-red interpol-none value-circle width-1.5; 
symbol3 color-green interpol-none value-square width-1.5; 
proc gplot data-plot test; 

plot y*x-oc; 

title; 

run; 

ods html close; 

ods listing ; 


第 1 步 随机 生成 150 个 观察 ， 其 中 50 个 观察 原点 为 中 心 ，50 个 观察 点 以 (9, 1) 为 中 心 ，50 个 观察 以 点 (4, 9) 为 中 心 ， 均 以 随机 值 乘 以 scale 为 半径 ， 随 机 取 值 ; 第 2 步 使 用 Gplot 步 绘制 散 点 图 。 选 项 
goption 和 footnote 定 义 图 形 的 大 小 和 标题 ; 点 图 的 外 观 设 置 通过 symbol 语 名 完成 ，interpol= none 表 示 点 与 点 之 间 不 做 任何 连接 ，value 指 定 所 绘制 的 各 点 的 符号 ， 这 里 triangle 表 示 三 角形 ，circle 表 示 
圆 形 ，square 表 示 正 方形 ，color 选 项 指定 各 点 绘制 图 形 的 颜色 。 


我 们 可 以 很 容易 发 现 ， 这 些 观 察 可 以 划分 为 3 类 ， 类 与 类 之 间 没 有 任何 重 晋 ， 且 每 个 类 均 类 似 球形 ， 类 与 类 之 间 有 明显 的 分 界 。 


通过 以 上 内 容 不 难 发 现 ， 当 数据 仅 有 两 个 维度 的 时 候 ， 很 容易 通过 可 视 化 来 展示 ， 但 是 在 我 们 的 实际 应 用 过 程 中 大 多 数 情况 ， 是 数据 包括 的 远 远 不 止 两 个 维度 ， 甚 至 达到 成 百 上 干 个 维度 ， 这 种 情况 
下 ， 进 行 可 视 化 之 前 就 需要 我 们 将 这 些 数 据 先进 行 降 维 ， 然 后 再 进行 可 视 化 展示 。 


4.5 ”变量 降 维 与 可 视 化 


4.5.1 图 形 化 探索 


可 视 化 展示 是 数据 探索 中 使 用 的 一 个 非常 重要 的 方法 ， 其 在 聚 类 分 析 的 类 的 初步 探索 中 尤为 重要 。 一 般 我 们 可 以 通过 可 视 化 来 判断 类 的 数量 ， 对 于 比较 直观 的 分 类 ， 通 过 肉眼 就 可 以 很 清楚 地 分 辨 出 类 


的 多 少 和 类 与 类 之 间 的 分 界 。 但 是 对 于 很 多 聚 类 分 析 ， 类 与 类 之 间 大 小 形状 均 不 相同 ， 类 与 类 之 间 还 存在 重 赤 现象 。 甚 全 有 些 样 本 不 同 的 分 类 方法 会 将 其 归 为 不 同 的 类 。 可 视 化 可 以 帮助 我 们 展示 样本 分 布 
情况 ， 这 有 助 于 帮助 我 们 鉴别 不 规则 类 ， 同 样 有 助 于 帮助 我 们 选择 不 同 的 聚 类 技术 。 可 视 化 主要 通过 SAs 系 统 提供 的 过 程 步 ， 即 PLOT 和 GPLOT 过 程 实现 。 


如 图 4-5 所 示 ， 通 过 SAs 可 视 化 ， 我 们 可 以 清晰 地 分 辨 出 该 数据 可 以 大 致 分 为 3 大 类 。 
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代码 清单 4-3 ”SAS 数 据 探索 可 视 化 


Ods listing close; 
Ods html; 
/xxxx1 步 : 获取 观察 xxx*/ 
data plot test; 
n-50;scale-1; 
x in-0;y in-0;c-1;link generate; 
X in-9;y in-1;c-2;link generate; 
X in-4;y in-9;c-3;link generate; 
keep x yc; 
stop; 
generate: 
do i-1to n; 


x-rannor(1)*scale*x in; 
y=rannor (1)*scalety in; 
output; 
end; 
return; 


run; 

[***23p. BEBE Boe 7 

Goption reset-all hsize-5 vsize-4; 
footnote ' 初 步 处 理 -- 可 视 化 展示 ' ; 

symboll color=blue interpol-none value-triangle width-1.5; 
symbol2 color-red interpol-none value-circle width-1.5; 
symbol3 color-green interpol-none value-square width-1.5; 
proc gplot data-plot test; 

plot y*x-oc; 

title; 

run; 

ods html close; 

ods listing ; 


第 1 步 随机 生成 150 个 观察 ， 其 中 50 个 观察 原点 为 中 心 ，50 个 观察 点 以 (9, 1) 为 中 心 ，50 个 观察 以 点 (4，9) 为 中 心 ， 均 以 随机 值 乘 以 scale 为 半径 ， 随 机 取 值 ; 第 2 步 使 用 Gplot 步 绘制 散 点 图 。 选 项 
goption 和 footnote 定 义 图 形 的 大 小 和 标题 ， 点 图 的 外 观 设 置 通过 symbol 语 句 完成 ，interpol=none 表 示 点 与 点 之 间 不 做 任何 连接 ，value 指 定 所 绘制 的 各 点 的 符号 ， 这 里 triangle 表 示 三 角形 ，circle 表 示 
圆 形 ，square 表 示 正 方形 ，color 选 项 指定 各 点 绘制 图 形 的 颜色 。 


我 们 可 以 很 容易 发 现 ， 这 些 观 察 可 以 划分 为 3 类 ， 类 与 类 之 间 没 有 任何 重 晋 ， 且 每 个 类 均 类 似 球形 ， 类 与 类 之 间 有 明显 的 分 界 。 


通过 以 上 内 容 不 难 发 现 ， 当 数据 仅 有 两 个 维度 的 时 候 ， 很 容易 通过 可 视 化 来 展示 ， 但 是 在 我 们 的 实际 应 用 过 程 中 大 多 数 情况 ， 是 数据 包括 的 远 远 不 止 两 个 维度 ， 甚 至 达到 成 百 上 干 个 维度 ， 这 种 情况 
下 ， 进 行 可 视 化 之 前 就 需要 我 们 将 这 些 数 据 先进 行 降 维 ,然后 再 进 行 可 视 化 展示 。 


4.5.2. 主 成 分 分 析 法 降 维 


主 成 分 分 析 法 是 考察 多 个 变量 之 间 相 关 性 的 一 种 多 元 统计 方法 。 它 是 研究 如 何 通 过 少数 几 个 主 成 分 来 解释 多 变量 的 方差 。 具 体 是 将 原始 变量 进行 重新 的 线性 组 合 ， 生 成 比较 少 的 几 个 主 成 分 (变量 ) , 
要 尽 可 能 多 地 保留 原始 变量 的 信息 ， 且 彼此 间 又 不 相关 。 主 成 分 的 散 点 图 在 进行 数据 探索 分 析 时 尤其 重要 ， 多 用 于 多 元 回归 分 析 中 用 于 解决 自 变量 之 间 的 共 线 性 问题 ， 还 可 用 于 因子 分 析 、 聚 类 分 析 和 判别 
分 析 等 ， 同 时 可 用 于 减少 变量 个 数 (统计 上 称 为 降 维 ) 等 。SAs 系 统 提供 了 PRINCOMP 过 程 步 来 实现 主 成 分 分 析 。 


以 下 通过 示例 对 主 成 分 分 析 法 的 使 用 和 结果 ， 进 行 详细 说 明 。 


代码 清单 4-4 ” 主 成 分 分 析 法 降 维 


/xxxx1 步 : 获取 变量 ****/ 
proc contents data= CLUSDATA.Clus mobcust noprint out=temp var; 


run; 

/****2 步 将 变量 名 称 赋 给 宏 变 量 ****/ 
procsql; 

select name into:var separated by' ' 
from temp var where name ^-"CUST ID" ; 


$put&var; 


$let var test-THMON POS CNT THMON POS AMT YEAR POS CNT YEAR POS AMT; 
/* 为 便于 解释 和 考虑 书本 内 容 的 限制 仅 选择 6 个 变量 进行 演示 */ 

xxxx3 步 : 用 主 成 分 分 析 降 维 ****/ 

odshtml; 

proc princ ompdata-clusdata.Clus mobcust out-out prin; 

var&var test; 

run;  —— 


Princomp 过 程 步 中 可 以 设置 “data=” 选 项 、“out=” 选 项 和 outstat 选 项 。 其 中 ，“data=” 选 项 用 于 指定 Princomp 过 程 要 分 析 的 数据 集 。 这 个 输入 数据 可 以 是 SASs 的 原始 数据 集 也 可 以 是 相关 系数 
矩阵 (type=corr 或 ucrr) ， 也 可 以 是 一 个 变异 数 矩 阵 (type=cov 或 ucov) ， 或 type=factor、sscp 等 不 同形 式 的 资料 。 若 省 略 默认 执行 在 此 过 程 步 之 前 最 后 形成 的 数据 集 文 件 ， 并 对 它 执行 主 成 分 分 析 。 
“out=” 选 项 : 设 定 输出 数据 集 ， 该 数据 集 包 含 原始 数据 集中 的 所 有 变量 ， 还 有 存放 主 成 分 的 新 变量 。 新 的 变量 的 名 字 由 选项 Prefix= 给 出 的 符号 和 数字 “1，2，3” 连 接 形成 。 新 变量 的 均值 为 0， 方 差 等 
于 相应 的 特征 值 。 如 规定 选项 standard， 则 主 成 分 变量 被 标准 化 为 单位 方差 。Outstat= 选 项 : 用 于 设 定 一 个 存放 均值 、 观 测 个 数 、 标 准 差 、 相 关 阵 或 协 差 阵 、 特 征 值 和 特征 向 量 的 输出 数据 集 。 


图 4-6 所 示 给 出 了 相关 和 矩阵 的 特征 值 ， 特 征 值 越 大 ， 它 所 对 应 的 主 成 分 变量 包含 的 信息 就 越 多 。 前 三 个 主 成 分 的 贡献 率 分 别 为 48.29%、38.999% 和 10.28%， 最 后 “1” 为 累计 贡献 率 ， 可 知 ， 前 两 个 主 成 
分 就 包含 了 原来 6 个 指标 87.28% 的 信息 。 图 4-7 所 示 给 出 了 特征 向 量 ， 据 此 可 以 算出 各 主 成 分 的 关系 表达 式 。 


方差 解释 


相关 答 阵 的 特征 值 


特征 值 ÆA ktø mH 
1 |1. 93164967 | 0. 37218903 | 0 4829 | 0 4829 


2 |1. 393946064 1. 293398229 | 0. 3899 | 0. 8728 
3 |0. 30387839 | 0. 10286708 | 0. 0/653 | 0. 9492 
4 | 0. 20301130 0. 0508 | 1. 0000 


图 4-6” 主 成 分 分 析 特 征 值 和 碎 石 图 


T$ 1E [5] Œ 
Prini Prin? Pring Prind 
THMON POS CNT ID 411485 0. 578787 0. 696437 | -. 103254 


THMON POS AMT 0. 558228 -. 433217 0.132550 | 0. 694275 
YEAR POS CN] 0 445184 0 347/846 -. 699390 0 118433 
YEAR POS AMT |O. 567038 -. 420844 -. 089328 | -. 702348 


图 4-7 主 成 分 分 析 特 征 向 量 
Prin120.14*THMON POS CNT+0.56*THMON POS AMT+0.44*YEAR POS CNT+0.57*YEAR POS AMT 
Prin220.58*'THMON POS CNT-0.43*THMON POS AMT-0.55*YEAR POS CNT-0.42*YEAR POS AMT 


以 上 各 变量 均 代 表 原 始 指标 的 标准 化 变量 。 在 主 成 分 的 表达 式 中 ， 系 数 的 绝对 值 越 大 ， 说 明 该 主 成 分 受 该 指标 的 影响 也 就 越 大 。 


46 ”ACECLUS 预 处 理 过 程 


4.6.1 ACECLUS 介 绍 


由 于 很 多 时 候 我 们 的 数据 资料 不 满足 经 典 聚 类 分 析 方 法 所 要 求 的 条 件 ， 直 接 使 用 FASTCLUS 和 CLUSTER 过 程 进 行 聚 类 分 析 ， 但 结果 会 非常 不 佳 。 因 此 ，SAS 提 供 了 一 种 专门 用 于 对 需要 做 聚 类 分 析 的 数 
据 进 行 预 处 理 的 ACECLUS 过 程 。 它 可 以 对 数据 进行 线性 转换 ， 使 转换 后 的 数据 满足 经 典 聚 类 分 析 方 法 的 要 求 。 例 如 ， 很 多 聚 类 分 析 方 法 对 于 球状 的 数据 可 以 很 好 地 进行 分 类 ， 但 对 于 被 拉 长 的 椭 球 状 数据 的 
分 类 效果 则 会 非常 差 。 如 果 这 些 类 的 椭 球 方向 及 偏心 率 大 致 相同 ， 对 数据 进行 线性 变换 则 可 以 得 到 球状 的 类 内 协 差 阵 。 同 样 的 ， 观 测 之 间 的 距离 就 可 以 用 合并 的 类 内 协 差 阵 的 逆 和 矩阵 来 度量 。 


4.6.2 ”ACECLUS 过 程 
ACECLUS 预 处 理 过 程 是 假设 各 类 别 为 多 元 正 态 分 布 并 具有 相等 的 协 方差 矩阵 ， 利 用 合并 的 类 内 协 方 差 矩阵 的 近似 估计 值 进行 聚 类 分 析 。ACECLUSs 过 程 适用 于 对 大 型 数据 进行 聚 类 分 析 的 预 分 析 ， 结 果 


再 作为 FASTCLUS 和 CLUSTER 过 程 的 输入 数据 集 进 行 分 析 。 


代码 清单 4-5” ACECLUS 过 程 语句 格式 


PROCACECLUSPROPORTION=p 
THRESHOLD-t < 选项 >; 


选项 说 明 : 
1) PROPORTION=p: 指定 用 于 类 内 协 方差 矩阵 估计 的 样本 对 占 总 数 的 比例 。 


2) THRESHOLD-t: 指定 类 内 协 方差 矩阵 估计 中 所 包含 样品 对 的 距离 界 值 ， 样 本 对 间距 离 大 小 或 等 于 此 界 值 者 将 被 用 于 类 内 协 方差 矩阵 的 估计 。 


4.6.3 ACECLUS 示 例 


模拟 样本 数据 ， 先 用 ACECLUS 过 程 ， 后 用 FASTCLUS 过 程 进 行 聚 类 分 析 。 


模拟 样本 数据 的 产生 ， 设 两 个 总 体 的 样本 总 量 均 为 100， 符 合 如 下 分 布 : 


N,.((u,X),i-1,2, 其 中 j=| | 4L = 24,7247 
(Ui, i), I 5 H 4 Ha 1A ] 2 35 27 


代码 清单 4-6 ”SAS 系 统 ACECLUS 示 例 


ods listing close; 
ods html; 
/*1 步 创建 数据 集 */ 
data elongate; 
keep x y ; 
ma-8;mb-0;link generate; 
ma-6;mb-8;link generate; 
stop; 
generate: 
do i-1 to 100; 
a-rannor (7)*6-4ma; 
b-rannor (7) *mb; 
x-a-b; 
y-actb; 
output; 
end; 
return; 


run; 
/*2 步 _ 作 出 数据 的 散 点 图 */ 

goption reset-all hsize-5 vsize-4; 
footnote ' 模 拟 数据 散 点 图 '; 
symboll color=red interpol-none value-circle width-0.5; 
proc gplot data-6&data.; 


plot y*x; 
title; 
run; 


/*3 步 模拟 非 球形 数据 进行 fastclus*/ 
proc fastclus data=elongate out=out maxc=2 printall; 
var x y; 
title' 模 拟 非 球形 数据 进行 fastclus'; 
run; 
/*4 步 聚 类 结果 可 视 化 */ 
$macro gplot (data-,c-); 
goption reset-all hsize-5 vsize-4; 
symboll color=red interpol-none value-circle width-0.5; 
symbol2 color=blue interpol-none value-triangle width-0.5; 
proc gplot data-6&data.; 
plot x*y-&c.; 
run; 
$mend; 
$gplot (data-out, c-cluster) 
/*5 步 对 数据 通过 2ceclus 进 行 变换 * / 
proc aceclus data=elongate out=ace p=0.1; 
var x y; 
run; 
/*6 步 对 aceclus 的 结果 数据 进行 可 视 化 */ 
goption reset-all hsize-5 vsize-4; 
symboll color=red interpol-none value-circle width-0.5; 
symbol2 color=blue interpol-none value-triangle width-0.5; 
symbol3 color-green interpol-none value-square width-0.5; 
proc gplot data-ace; 
plot can2*canl; 
run; 
/*7 步 对 aceclus 的 结果 数据 进行 fastclus*/ 
proc fastclus data-ace out-out 2 maxc-2 printall; 
var canl can2; B 
titi e'! 包 含 并 排 拉 长 类 数据 的 FASTCLUS 据 类 分 析 '; 
run; 
/*8:b 再 次 对 fastclus 的 结果 进行 可 视 化 */ 
goption reset-all hsize-5 vsize-4; 
symboll color=red interpol-none value-circle width-0.5; 
symbol2 color=blue interpol-none value-triangle width-0.5; 
proc gplot data-out 2; 
plot can2*canl-cluster; 
run; 
$gplot(data-out 2,c-cluster); 
quit; i 


ods html close; 
ods listing ; 


为 进一步 说 明 ACECLUSs 过 程 的 重要 性 ， 以 上 程序 是 通过 模拟 非 球形 数据 ， 并 对 非 球 形 数据 进行 直接 聚 类 和 对 数据 进行 ACECLUS 过 程 的 转换 后 再 进行 聚 类 的 结果 进行 比较 ， 结 果 明 显 表 明 ， 人 在 进行 聚 
分 析 前 ， 对 非 球 形 数 据 进行 ACECLUS 过 程 转 换 还 是 很 有 必要 的 。 程 序 中 步 1， 是 模拟 非 球 形 数据 200 个 观察 ， 步 2， 对 模拟 出 来 的 非 球 形 数据 进行 可 视 化; 步 3 ~ 4 该 数据 直接 进行 聚 类 分 析 并 对 结果 进行 可 视 
化 展示 ; 步 5， 通 过 aceclus 过 程 对 数据 进行 转换 ，p=0.1 是 一 个 控制 迭代 过 程 的 量 ， 用 来 指定 用 于 类 内 协 方差 矩阵 估计 的 样本 对 占 总 数 的 10%; 步 6 对 ACECLUS 过 程 转换 后 的 数据 进行 可 视 化 ; 步 7 ~ 8 对 新 
转换 后 的 数据 再 次 进行 FASTCLUS 聚 类 分 析 并 进行 可 视 化 展示 。 


如 图 4-8 所 示 ， 可 以 发 现 原始 数据 观察 值 呈 现 两 条 平行 的 长 条 分 布 ， 如 果 将 该 数据 分 为 2 类 ， 最 好 的 划分 方式 一 定 是 延 两 条 平行 带 在 中 间 用 1 条 隔离 带 将 其 划分 为 2 类 。 
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图 4-8 ”两 条 平行 长 条 分 布 数据 


通过 FASTCLUS 的 聚 类 的 结果 如 图 4-9 所 示 ， 但 这 并 不 是 按照 最 好 的 划分 方式 进行 的 划分 。 
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图 4-9 ”平行 数据 FASTCLUS 的 聚 类 结果 


通过 ACECLUS 过 程 步 的 转换 后 的 数据 并 进行 FASTCLUS 后 的 结果 ， 如 图 4-10 所 示 。 
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图 4-10 ”平行 数据 FASTCLUS 的 聚 类 结果 
因此 ,我 们 不 难 发 现 同一 数据 在 ACECLUS 过 程 步 的 转换 前 后 进行 聚 类 分 析 的 结果 是 完全 不 同 的 ， 如 图 4-11 所 示 。 
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聚 类 ooo | aaa 2 聚 类 ooo] aaa 2 
图 4-11 平行 数据 ACECLUS 过 程 步 前 后 聚 类 结果 


因此 ， 结 果 明 显 表明 ， 在 进行 聚 类 分 析 前 ， 对 非 球形 数据 进行 ACECLUS 过 程 转换 还 是 很 有 必要 的 。 


4.7 系统 聚 类 分 析 


4.7.1 系统 聚 类 ; 


系统 聚 类 法 是 聚 类 分 析 方 法 中 最 常用 的 一 种 ， 其 基本 思想 如 图 4-12 所 示 。 


系统 聚 拓 法 : 
AT 


图 4-12 系统 聚 类 法 基本 思想 


合并 法 : 先 将 n 个 体 (样品 或 变量 ) 看 成 n 类 ， 然 后 将 最 接近 (或 相似 程度 最 大 ) 的 2 个 类 合并 为 一 个 新 类 ， 得 到 n-1 类 ， 再 从 中 找 出 最 接近 的 2 类 加 以 合并 变 成 了 n-2 类 ， 如 此 下 去 ， 最 后 直至 所 有 的 个 体 
全 部 合并 为 一 类 。 


分 解法 : 其 过 程 与 合并 法 相反 。 首 先 所 有 的 个 体 均 认为 一 类 ， 然 后 用 某 种 最 优 准 则 将 它 分 成 2 类 ， 再 用 同样 准则 将 这 2 类 各 自 试 图 分 裂 为 2 类 ， 从 中 选 1 个 目标 函数 较 好 者 ， 这 样 由 2 类 变 成 了 3 类 。 如 此 下 
去 ， 一 直 分 裂 到 每 类 中 只 有 1 个 元 素 为 止 ， 有 时 即使 是 同一 种 聚 类 方法 ， 因 聚 类 形式 〈 即 距离 的 定义 方法 ) 不 同 而 会 有 不 同 的 停止 规则 。 


基本 步骤 可 描述 如 下 : 

1) 开始 将 n 个 样本 构造 为 n 个 类 ， 每 个 类 包含 且 只 包含 一 个 样品 。 

2) 规定 样本 之 间 的 距离 和 类 与 类 之 间 的 距离 ， 同 时 计算 n 个 样品 两 两 间 的 距离 ， 构 成 距离 矩阵 ， 记 作 D0。 
3) 合并 距离 最 近 的 两 类 为 一 新 类 。 

4) 计算 新 类 与 当前 各 类 的 距离 。 重 复 进 行 两 个 最 近 类 的 合并 ， 每 次 减少 一 类 ， 直 至 所 有 的 样本 合并 为 一 类 。 
5) 画 聚 类 图 。 


6) 确定 类 的 个 数 ， 及 各 类 包含 的 样品 数 ， 并 对 类 作出 解释 。 


4.1.2. 样本 与 样本 之 间 的 度量 


首先 ， 思 考 一 个 问题 : 乌鸦 和 企鹅 ， 哪 个 更 像 胸 子 ? 有 的 人 会 回答 乌鸦 ， 因 为 乌鸦 和 鸭子 一 样 都 可 以 飞 ， 有 的 人 可 能 回答 是 企 碑 ， 因 为 企 牧 和 觅 子 一 样 可 以 在 水 里 面 游泳 。 
其 实 ， 在 回答 上 面 的 问题 的 时 候 ， 我 们 已 经 给 他 指定 了 一 个 判断 的 准则 : 相似 的 标准 。 不 同 的 人 ， 使 用 的 相似 标准 不 同 ， 因 此 会 得 到 的 结果 也 不 尽 相 同 。 


尽管 我 们 经 常 使 用 相似 的 概念 ， 但 是 我 们 又 很 难 真正 把 相似 的 内 容 准确 地 量化 出 来 。 而 分 类 学 一 般 就 是 把 某 种 性 质 相 近 的 东西 归于 一 类 ， 把 性 质 不 近 的 东西 归于 不 同 的 类 。 这 种 基于 统计 方法 或 数学 方 
法 进行 的 分 类 ， 实 际 是 对 客观 事物 的 抽象 ， 是 建立 在 各 样品 关于 其 各 指标 的 测量 数据 的 基础 上 ， 即 利用 这 些 数 据 的 内 在 联系 和 规律 性 来 分 类 。 因 此 ， 分 类 首先 要 有 描述 或 刻画 各 样品 之 间 的 相近 程度 或 变量 
间 的 相似 程度 的 量 或 指标 。 这 类 指标 就 是 距离 及 相似 系数 。 


如 果 我 们 使 用 不 同 的 相似 标准 ， 会 得 到 不 同 的 结果 。 聚 类 分 析 也 类 似 ， 使 用 的 标准 是 欧式 距离 还 是 Person 相 关 都 会 影响 最 终 的 聚 类 结果 。 


4.7.3 ”距离 定义 与 测量 
1. 欧 式 距离 


根据 著名 的 勾 股 定理 (Pythagorean Theorem) : 直角 三 角形 两 直角 边 的 平方 和 等 于 斜 边 的 平方 。 如 果 直 角 三 角形 两 直角 边 为 3 和 和 b， 斜 边 为 c， 那 么 ac+b<=c2， (a, b, c) 叫做 勾 股 数组 。 


欧式 距离 是 使 用 作为 广泛 的 一 种 聚 类 分 析 的 度量 准则 ， 它 根据 著名 的 勾 股 定理 得 来 ， 具 体 如 下 : 


H 表 示 点 (X1，X2) 与 原点 (0, 0) 之 间 的 向 量 的 长 度 。 拓 展 到 n 维 空间 中 ，x 和 Ww 之 间 的 距离 表示 如 下 : 


p, -|-w|- [rx -w) 


以 上 就 是 著名 的 欧 氏 距离 ， 当 观察 x 存在 缺失 值 时 ， 观 察 点 x 和 随机 种 子 w 之 间 的 距离 可 以 表示 如 下 : 


在 原来 的 基础 乘 上 一 个 调节 系数 ，n/v， 其 中 nm 为 变量 个 数 ，v 为 非 缺失 值 变量 个 数 。 


2. 切 比 雪 夫 距 离 


3. 明 考 斯 基 距 离 


以 上 3 种 距离 是 明 氏 距离 的 特例 : 欧 氏 距离 、 绝 对 值 距离 是 明 氏 距离 q9=2 和 q=1 时 的 特例 ; q>, ARESE SABES. 

当 各 个 变量 值 相差 悬殊 时 ， 采 用 上 述 距离 反映 样品 间 的 接近 程度 并 不 合理 ， 常 要 用 对 原始 数据 进行 标准 化 ， 然 后 使 用 标准 化 的 数据 计算 距离 。 
明 氏 距离 ， 特 别 是 欧 氏 距离 是 人 们 熟悉 也 是 使 用 最 多 的 距离 。 但 该 指标 有 两 个 缺陷 : 与 指标 的 量 纲 有 关 ; 没有 考虑 指标 之 间 的 相关 性 ; 

4. 配 合 距离 

对 于 分 类 变量 ， 尤 其 是 无 序 分 类 变量 ， 设 有 2 个 样品 ，5 个 指标 的 取 值 分 为 : 

S1- (V, Q, S, T, K) 

S2- (V, M, S, F, K) 


它们 的 第 一 个 指标 均 取 V， 称 为 配合 的 ; 第 二 个 指标 31 取 Q， 而 S2 取 M ， 称 为 不 配合 的 。s1 与 S2 中 配合 数 为 3， 不 配合 数 为 2。 则 3S1 与 32 的 配合 距离 为 3/5=0.60。 更 一 般 地 ， 设 两 样品 共有 Pp 个 指标 ， 其 
中 配合 者 有 m 个 ， 则 两 样品 间 的 距离 可 定义 为 : 


dj-m/p 


4.7.4 相关 系数 


研究 样品 间 的 关系 常用 距离 ， 研 究 指标 间 的 关系 常用 相似 系数 。 顾 名 思 义 ， 相 似 系数 是 刻画 指标 间 相 似 程度 的 一 个 量 ， 常 用 的 有 夹 角 余 弦 ， 相 关系 数 等 。 


P | 
> xy, 


r=] 


如 果 p 个 变量 都 是 定 比 变量 ，x 与 y 之 间 的 相似 度 可 以 用 如 下 度量 : 


(1) 夹 角 余弦 


(2) Pearson 相 关系 数 


相关 也 是 聚 类 分 析 中 一 种 常见 的 相似 度 的 度量 方式 ， 最 著名 的 就 是 Pearson's coefficient 皮 尔 逮 相关 系数 


XV 


皮尔 逮 相关 系数 介 于 -1 与 1 之 间 ， 越 接近 1 或 者 -1 越 相关 ， 越 接近 0 越 不 相关 。 


4.7.5 ”类 与 类 之 间 的 度量 


以 上 我 们 介绍 了 不 同 观察 之 间 的 相似 度 的 度量 标准 ， 本 节 将 介绍 类 与 类 之 间 的 度量 和 比较 常用 的 八 种 系统 聚 类 方法 及 SAS 实 现 。 这 八 种 系统 聚 类 方法 的 主要 不 同 其 实 仅 在 于 类 与 类 之 间距 离 的 计算 方式 
不 同 ， 类 与 类 之 间距 离 计 算 的 不 同 导 任 最 终 的 结果 也 截然 不 同 。 下 面 我 们 将 首先 介绍 这 八 种 方法 类 与 类 之 间 的 定义 。 系 统 聚 类 法 所 有 的 样本 开始 都 是 自称 一 类 ， 因 此 ,假设 有 m 个 样本 ,分 别 标 记 为 
S1，S2，.…….Sm， 用 Dpq (下 标 为 小 写 ) 表示 样本 Sp 与 Sg 之 间 的 距离 ，G1，G2，.….….GM 分 别 表示 类 ，Dpg 表 示 类 Gp 和 类 GQ 之 间 的 距离 。 系 统 聚 类 法 在 一 开始 因为 各 样本 自 成 一 类 ， 因 此 样本 之 间 的 聚 类 
就 是 类 之 间 的 距离 。 

1. 最 短 距离 法 (Single Linkage) 


定义 类 P 与 Q 之 间 的 距离 为 两 类 中 最 近 样 品 之 间 的 距离 ， 即 


Dpo= min d; (i = CO J = Go) 


称 这 种 系统 聚 类 法 为 最 短 距 离 法 (选项 Method=singlelsin) ， 如 图 4-13 所 示 。 


图 4-13 ”最 短 距 离 图 示 


它 的 步骤 具体 摘 述 如 下 : 


1) 规定 样本 之 间 的 距离 ， 计 算 n 个 样本 之 间 的 距离 矩阵 D0， (下 标 0， 代 表 最 初始 的 是 距离 阵 ) 该 距离 和 矩阵 一 定 是 对 称 矩 阵 。 
2) 选择 和 矩阵 中 的 最 小 元 素 ， 假 设 为 样本 p 和 样本 q 之 间 的 距离 ， 则 将 样本 p 和 样本 q 合 并 为 一 个 新 的 类 ， 假 设 记 为 Gx。 


3) 计算 新 的 类 Gyx 与 其 他 类 之 间 的 距离 矩阵， 定义 为 D1， 选 择 和 矩阵 中 最 近 的 元 素 ， 并 将 其 对 应 的 类 ， 进 行 合并 ， 生 成 新 的 类 Gy。 


Lr 


4) 重复 以 上 步骤 ， 直 到 全 部 元 素 合并 为 一 类 。 
例 1， 设 有 5 名 客户 ， 每 名 客户 的 银行 产品 持 有 数 依次 为 1，2，6，9，15。 试 对 这 五 名 客户 按照 产品 持 有 数 进行 分 类 。 


设 样本 之 间 的 距离 采用 欧式 距离 ， 类 与 类 之 间 的 距离 采用 类 间 最 短 距 离 ， 计 算 方式 如 图 4-14 所 示 。 


样本 与 柏 本 之 则 的 距离 
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图 4-14 不 同类 别 数据 的 计算 方式 


1) 样本 之 间 采 用 欧 氏 距离 ， 计 算 样本 间 的 距离 和 矩阵 D0， 如 表 4-8 所 示 。 


表 4-8 计算 样本 间距 离 矩 阵 表 Db 


T 


2) 样本 间 的 距离 矩阵 Do 中 最 小 的 元 素 是 样本 1 和 样本 2 之 间 的 距离 ， 因 此 ， 将 样本 1 和 样本 2 合并 成 一 类 ， 命 名 为 G6， 并 根据 类 与 类 之 间距 离 采 用 最 短 距离 法 ， 计 算 新 的 距离 矩阵 D0， 如 表 4-9 所 示 。 


表 4-9 ”距离 矩阵 Di 


me NEN NENNEN REN NNNM 


3) IBEEFED4rPBSEv ZUR RZS3RUZSAZTIBIRSUBES, EMIL, KKHH, MAAG. THRIRZSG2EZ BRUBESSKRHERAGEBRA, VERWIUJUBESABEEDo, 804-109 zm. 


表 4-10 “距离 矩阵 D， 


as 


4) 距离 矩阵 Dz 中 的 最 小 元 素 是 类 6 和 类 7 之 间 的 距离 ， 因 此 ， 将 类 6 和 类 7 进行 合并 为 一 类 ， 命 名 为 G8。 并 根据 类 与 类 之 间 的 距离 采用 最 短 距 离 法 ， 计 算 新 的 距离 矩阵 D3， 如 表 4-11 所 示 。 


表 4-11 ”距离 矩阵 D3 


5) 最 后 将 G5 和 G8 合并 为 一 类 ， 这 时 所 有 客户 聚 为 一 类 ， 过 程 终止 。 


以 上 聚 类 过 程 使 用 树 形 图 展示 如 下 ， 横 坐标 表示 的 是 类 与 类 之 间 的 距离 ， 从 图 4-15 中 直观 地 看 ， 类 的 个 数 确 定 为 3 类 比较 合适 ， 关 于 如 何 确定 类 的 个 数 我 们 将 在 随后 章节 中 介绍 。 


Cost ID 
Costl 


Cost2 


Cost3 


Cost4 


Cost5 


0.0 0.1 0.2 0.3 0.4 UN 0.6 0.7 0.8 0.9 
聚 类 之 间 的 量 小 距离 
图 4-15 聚 类 分 析 树 形 图 
注 明 : 最 短 距离 法 的 特点 ， 不 限制 类 的 形状 ， 对 于 拉 长 的 类 或 不 规则 的 类 效果 更 好 ， 但 对 比较 紧凑 的 类 的 效果 不 是 很 好 ， 它 通常 会 删除 很 多 边缘 的 观测 。 
2. 最 长 距离 法 (Complete method) 


最 长 距离 法 定义 类 与 类 之 间 的 距离 为 两 类 样本 间 最 远 样本 之 间 的 距离 (选项 Method=completelcom) 。 如 图 ， 最 长 聚 类 法 的 聚 类 过 程 和 最 短 距 离 法 完全 相同 ， 只 是 类 与 类 之 间 的 距离 的 计算 方式 有 所 
不 同 ， 如 图 4-16 所 示 ， 选 择 最 远 样本 之 间 的 距离 。 


2 
(0 s 


图 4-16 样本 距离 


对 例子 中 客户 的 数据 再 次 进行 聚 类 ， 得 到 如 图 4-17 所 示 的 树 形 图 ， 它 与 用 最 短 距离 法 有 相似 的 结果 ， 但 是 并 类 的 距离 要 比 最 短 距 离 法 大 一 些 。 


Cost ID 
Costl 


Cost2 


Cost3 


Cost4 


Cost5 


00 02 04 06 08 10 12 14 16 18 20 
聚 闫 之 间 的 量 大 距离 


图 4-17 聚 类 树 形 图 


在 多 维 空间 中 ， 由 于 异常 值 通常 出 现在 空间 的 边缘 区 域 ， 使 得 一 个 类 内 的 异常 值 常常 位 于 离 其 他 类 都 比较 远 的 位 置 ， 这 样 容 易 造 成 用 最 长 聚 类 法 算出 的 距离 被 异常 值 过 分 夸大 ， 因 此 ， 最 长 距离 法 容易 
被 异常 值 严重 地 扭曲 。 经 常 使 用 的 一 个 可 以 避免 该 问题 的 方法 是 将 异常 观测 单独 处 理 后 再 进行 聚 类 分 析 。 


注 明 : 最 长 距离 法 倾向 于 产生 直径 相等 的 类 ， 易 受 异 常 值 的 影响 ， 即 使 是 中 等 程度 的 异常 值 ， 最 好 在 聚 类 前 剔除 后 再 进行 聚 类 。 
3. 中 间距 离 法 (Complete method) 


中 间 聚 类 法 是 指 类 与 类 之 间 的 距离 取 两 类 之 间 最 近 样本 间 的 距离 和 最 远 样 本 间 的 距离 之 间 的 中 间距 离 (选项 Method=median|med) 。 什 么 是 中 间距 离 呢 ? 假设 有 三 个 类 ， 分别 为 类 p、 类 9q 和 类 k, 三 
类 之 间 的 距离 如 图 4-18 所 示 。 


D 


Pu 


图 4-18 样本 类 空间 距离 


中 间 聚 类 的 定义 就 是 取 上 图 中 Dpq 线 的 中 线 作 为 类 与 类 之 间 的 距离 。 具 体 可 以 根据 初等 平面 几何 的 余弦 定理 得 到 |: 


A 5 2 
FD at PD a 


pk 


) ] 5 
D x Erie 


] 
-<p x: O,k * p,q 
4 

SAS 中 取 B=-1/4， 类 p 和 类 q 合 并 为 一 类 r 

4. 重 心 法 (Centroid method) 


类 与 类 之 间 的 距离 定义 为 它们 的 重心 之 间 的 欧 氏 距离 ， 称 为 重心 法 (选项 Method=centroidjcen) 。 如 图 4-19 所 示 ， 两 类 之 间 的 聚 类 就 是 左边 类 中 样本 组 成 的 图 形 的 重心 和 右边 类 中 图 形 重 心 之 间 的 距 


图 4-19 ”类 与 类 重心 距离 


将 类 p 和 类 q 合 并 成 类 r， 则 类 [r 与 男 一 类 k 之 间 的 距离 递 推 公 式 为 : 
D? = Tp Doa a D? "p T D 
rk pk qk | | pg 


F F F F 


np、nq、nr 分 别 表 示 p 类 、q 类 和 上 r 类 所 包含 的 样本 数 。 


注 明 : 重心 法 主要 是 将 类 内 的 异常 值 与 类 中 其 他 值 进行 了 平均 ， 所 以 异常 值 其 对 聚 类 的 影响 一 般 讲 相 对 有 限 。 因 此 ， 与 其 他 方法 相 比 重心 法 对 异常 值 更 加 稳健 ， 但 其 他 方面 不 如 离 差 平方 和 法 或 类 平均 
法 的 效果 好 。 

5. 类 平均 法 (average linkage method) 

类 平均 法 有 两 种 定义 ， 一 种 定义 是 指 类 与 类 之 间 的 距离 定义 为 所 有 样本 对 之 间 的 平均 距离 。 另 一 种 定义 是 指 类 与 类 之 间 的 距离 定义 为 样品 对 之 间 平 方 距离 的 平均 值 。 一 般 定 义 为 两 类 观测 之 间距 离 的 平 


均 。 类 p 与 类 q 之 间 的 距离 : 


p. E! d 


" npn As. CRT si Rj 
” “5% 当 类 p 和 类 q 合 并 为 类 r 的 时 候 


注 明 : 类 平均 法 的 特点 ， 它 倾向 于 先 合 并 方差 小 的 类 ， 而 且 偏 向 于 产生 方差 相同 的 类 。 它 利用 了 所 有 样本 的 信息 ， 被 认为 是 一 种 比较 好 的 系统 聚 类 方法 。 


6. 可 变 类 平均 法 (FLExible-beta method) 


在 计算 新 类 与 其 他 类 的 距离 时 ， 类 平均 法 没有 反映 出 构成 新 类 中 两 个 原始 类 的 类 间距 离 的 影响 ， 可 变 类 平均 法 对 其 进行 了 修改 ， 若 类 p 和 q 合 并 成 新 类 r， 则 类 [与 男 一 类 k 之 间 的 距离 的 递 推 公式 为 : 


n 
P 


n D p t. Pa *pD,, (k * p.q) 


F F 


D, - (1-4) 


其 中 类 p 和 类 q 合 并 为 类 r，B 是 可 变 系 数 ， 一 般 取 值 小 于 1。 在 SAS 中 称 为 可 变 B 法 ， 递 推 公式 为 : 


rk 7 pk qk / pq \ P 9 q 
其 中 类 p 和 类 q 合 并 为 类 r，fB 是 可 变 参数 ， 取 值 范围 (-1, 1) ， 通 常 取 (-1, 0), &keSHJp--0.25, URSS ERAR, —BEBXB--0.5. 


7.McQuitty 相 似 分 析 法 (MCQ) 


如 果 类 p 和 类 q 合 并 成 新 类 r， 则 类 r 和 另 一 类 k 类 之 间距 离 的 递 推 公 式 为 : 


pk 


"Lm +D (K p, 


8. 离 差 平方 和 法 (average linkage method) 


离 差 平方 和 法 是 1936 年 由 Ward 首 先 提出 来 的 ， 他 的 思想 是 来 自 于 方差 分 析 ， 设 类 p 和 类 q 的 离 差 平方 和 分 别 如 下 : 


p i p 
W = 》 E —X 
d | i d 


注 明 : 离 差 平 方 和 法 倾向 于 先 合并 观测 少 的 类 ， 而 且 严重 偏向 于 产生 相等 观察 个 数 的 类 。 


| 
- 


将 类 p 和 类 q 合 并 成 类 r 时 所 引起 的 类 内 离 差 平方 和 增加 


B= WW N 


9. 最 大 似 然 谱系 聚 类 (EML) 

此 方法 与 Ward 离 差 平方 和 法 相似 ， 但 倾向 于 生成 样本 含量 大 小 不 等 的 类 (SAs 选 项 method=eml) 。 

递 推 公式 : 

Du=avln (1-Bg,/Pg) -P (nln (nj) -mln (np) -njln (nj) ) 

其 中 n 是 观测 个 数 ，v 是 变量 个 数 ，PG 是 该 层次 水 平 的 所 有 类 内 的 离 差 平方 和 之 和 ， 由 penalty= 指 定 p 的 值 ， 要 求 P > 0， 默 认 值 为 2。 

注 明 : 经 验 表明 最 大 似 然 谱系 聚 类 法 有 点 偏向 于 大 小 不 等 的 类 。 可 以 通过 指定 选项 PENALTY= 调 整 偏 的 程度 。 该 方法 是 从 SAS 公 司职 员 借 助 极 大 似 然 的 思想 开发 而 来 。 
10. 密 度 估计 法 (DEN) 


SAs 系 统 通过 选项 Method=DEN ， 提 供 了 三 种 可 以 供 选择 的 方法 : 


近邻 估计 法 (kth neares neighbor method) ( 需 指 定 选 项 “k=”) 、 均 匀 核 方法 (uniform kernel method) “( 需 指定 选项 “r=”) 和 wong 混 合 方法 (Wong' s Hybrid Method) 〈 需 指定 选 
Ig] "Hybrid" ) 。 


注 明 : 密度 估计 法 对 类 的 形状 没有 限制 ， 能 用 于 拉 长 的 类 或 不 规则 形状 的 类 ， 对 于 小 样本 密集 的 类 ， 密 度 估 计 法 不 适用 。 
11. 两 阶段 密度 估计 法 
此 方法 是 对 密度 估计 法 的 一 种 修正 ， 通 过 选项 Method=twoltwostage 来 设置 。 


注 明 : 密度 估计 法 和 两 阶段 密度 估计 法 均 是 利用 非 参数 方法 估计 密度 ， 然 后 用 密度 定义 观测 之 间 的 距离 ， 最 后 用 最 短 距离 法 聚 类 。 密 度 估计 法 和 两 阶段 密度 估计 法 的 区 别 在 于 先 合并 哪 种 类 ， 两 阶段 密 
度 估计 法 要 求 先 将 每 个 观测 合并 到 一 个 模式 类 (要 求 观测 个 数 不 小 于 mode= 指 定 的 值 ) 中 ， 但 合并 的 两 类 中 至 少 有 一 类 的 观测 个 数 小 于 mode= 指 定 的 值 。 


4.7.6 “系统 聚 类 法 


Lance 和 Williams 于 1967 年 将 八 种 系统 聚 类 法 的 递 推 公式 统一 为 : 


E 


2 2 E". n2 AM. 
D 0g De, a Dy, DD, * y Dr D; 


其 中 acK，QL，B，Y 是 参数 ， 不 同 的 系统 聚 类 法 ， 它 们 有 不 同 的 取 值 。 表 4-12 列 出 了 系统 聚 类 法 中 各 分 析 方 法 的 四 个 参数 的 取 值 。 


表 4-12 系统 聚 类 法 对 应 的 参数 取 值 


方法 


i 
最 短 距 离 法 _172 
最 长 距离 法 12 
HP a gp er 0 
可 变法 0 
类 平均 法 0 
n] 变 类 平均 法 0 
重心 法 0 
离 差 平方 和 法 0 


以 上 介绍 了 系统 聚 类 法 的 基本 思想 及 各 种 不 同 算法 的 原理 ， 总 结 起 来 ， 系 统 聚 类 法 有 两 个 简单 性 质 。 


一 是 并 类 距离 的 单调 性 。 假 设 D 是 系统 聚 类 法 中 第 次 并 类 时 的 距离 ， 如 果 一 种 系统 聚 类 法 能 满足 D1<D2<.……<Di， 则 称 并 类 距离 具有 单调 性 。 具 有 单调 性 的 方法 有 : 最 长 距离 法 、 最 短 距离 法 、 类 平均 
法 、 离 差 平 方 和 法 、 可 变 平均 法 。 不 具有 单调 性 的 方法 有 : 重心 法 、 中 间距 离 法 。 


二 是 空间 的 浓缩 与 扩张 。 如 果 两 个 同 阶 和 矩阵 A 和 B， 如 果 A 中 的 每 一 个 元 素 都 不 小 于 B 中 的 相应 的 元 素 ， 则 有 A>B， 称 前 者 比 后 者 扩张 ， 后 者 比 前 者 浓缩 。 对 于 系统 聚 类 各 分 项 之 间 的 关系 如 下 : 
最 短 距 离 法 < 类 平均 法 (中 间距 离 法 ) < 最 长 距离 法 
重心 法 < 类 平均 法 < 离 差 平 方 和 法 。 


注 明 : 太 浓 缩 的 方法 不 够 灵敏 ， 太 扩张 的 方法 当 观 测 个 数 多 时 容易 失真 。 类 平均 法 比较 适中 ， 相 对 于 其 他 方法 不 太 浓缩 也 不 太 扩 张 ， 而 且 具 有 单调 性 。 因 而 ， 类 平均 法 是 一 种 应 用 广泛 、 聚 类 效果 比较 
好 的 方法 。 


4.7.7 不 同系 统 聚 类 法 之 间 的 比较 


为 进一步 分 析 系 统 聚 类 中 各 方法 在 不 同类 型 数据 中 不 同 表现 效果 ， 下 面 我 们 通过 模拟 不 同 的 数据 类 型 ， 通 过 各 种 方法 进行 聚 类 并 比较 不 同 的 结果 ， 最 终 确定 不 同方 法 的 不 同 场景 。 
1. 对 于 能 够 完全 分 开 的 球形 数据 的 比较 


假设 三 个 二 维 正 态 分 布 的 随机 抽样 序列 ， 每 个 总 体 抽取 容量 10 的 样本 ， 服 从 如 下 分 布 : 


IN Xu, 2; [= l, 2, j 


代码 清单 4-7 ”能够 完全 分 开 的 球形 数据 的 比较 


ods listing close; 
ods html ; 
ods graphics on; 
options 1s-72 ps-40; 
/*1 步 模拟 产生 数据 */ 
data compact; 
keep x y c; 
n-50;scale-1; 
mx-0;my-0;c-1;link generate; 
mx-10;my-0;c-2;link generate; 
mx-4;my-10;c-3;link generate; 
stop; 
generate: 
do i-1 to n; 
x-rannor (1) *scale4mx; 
y-rannor (1) *scaledmy; 
output; 
end; 
return; 


run; 
/*2 步 设 定 作 图 的 宏 */ 
$macro plotit (indata=, c=); 
goption hsize=5 vsize-4; 
symboll color-red interpol-none value-circle width-0.5; 
symbol2 color=blue interpol-none value-triangle width-0.5; 
proc gplot data-&indata.; 
plot y*x-&c.; 
run; 
$mend; 
/*3 步 展示 原始 分 类 */ 
title ' 原 始 数 据 分 类 '; 
$plotit (indata=compact, c-Cc); 
/*4 步 最 短 距离 法 分 类 */ 
proc cluster data=compact outtree=tree 
method=single noprint; 
proc tree noprint out-out n-3; 
copy X y; 


run; 

title ' 最 短 距离 法 '; 

%plotit (indata-out,c-cluster); 

/*5 步 类 平均 法 分 类 */ 

proc cluster data=compact outtree=tree 
method-averge noprint; 

proc tree noprint out-out n-3; 

copy X y; 
run; 
title ' 类 平均 法 '， 


$plotit (indata out, c-cluster); 
/*6 步 类 WARD 离 差 平方 和 法 分 类 */ 


proc cluster data=compact outtree=tree 
method-ward noprint; 
proc tree noprint out-out n-3; 
copy X y; 
run; 
title 'WARD 离 差 平方 和 法 '; 
$plotit (indata=out, c=cluster); 
/*7 步 重心 法 分 类 */ 
proc cluster data=compact outtree=tree 
method-centroid noprint; 
proc tree noprint out-out n-3; 
copy X y; 
run; 
title "重心 法 "7 
$plotit (indata-out,c-cluster); 
/*8 两 阶段 密度 法 分 类 */ 
proc cluster data=compact outtree=tree 
method-twostage noprint; 
proc tree noprint out-out n-3; 
copy X y; 
run; 
title "两 阶段 密度 法 ' ; 
$plotit (indata-out,c-cluster); 


为 进一步 比较 系统 分 类 法 各 原理 算法 在 能 够 完全 分 开 的 球形 数据 的 分 类 结果 之 间 的 异同 ， 以 上 程序 首先 模拟 了 一 份 能 够 完全 分 开 的 球形 数据 ， 并 通过 图 形 展示 出 最 原始 数据 的 分 类 结果 。 随 后 在 第 4~ 8 
步 ， 分 别 使 用 不 同 的 算法 进行 聚 类 ， 并 进行 展示 。 


- 


如 图 4-20 ~ 4-24 所 示 ， 对 于 能 够 完全 分 开 的 球形 数据 ， 系 统 分 析 法 的 各 原理 算法 之 间 并 无 明显 差异 ， 均 能 比较 准确 地 将 各 样本 进行 分 类 ， 基 本 和 原始 的 标准 分 类 一 致 。 可 见 ， 对 于 能 够 完全 分 开 的 球形 
数据 ， 各 算法 之 间 并 无 差异 。 


最 和 二 距离 法 


— = P= 
= 3 Uu 


—À 
CO = R2 uU E th OQ —] O0 D C 


CLUSTER coool] sasaa? +++ 3 
图 4-20 “可 分 开 球 形 数据 - 最 短 距 离 法 结果 
2. 对 于 不 能 完全 分 开 的 球形 数据 的 比较 


假设 三 个 二 维 正 态 分 布 的 随机 抽样 序列 ， 每 个 总 体 抽取 容量 10 的 样本 ， 服 从 如 下 分 布 : 


NX; 2i); i=], 2, 3 


其 中 ， 


A = , H = [A = " 2,7154212,3 


撩 平均 法 


~ b 


— = 一 一 


12 


11 


CLUSTER 2999] 232422 ***3 


图 4-21 可 分 开 球 形 数 据 - 类 平均 法 结果 


WARD 离 差 平方 和 法 


> 


tN C 一 二 
一 一 一 一 


12 


11 


+++ 3 


CLUSTER ooo l aaa? 


图 4-22 ”可 分 开 球 形 数 据 -WARD 离 差 平 方 和 结果 


重心 法 


"a 


en C) — 
一 一 一 


DO ONT MAN 
-一 


ooo] aaa? +++ 3 


CLUSTER 


图 4-23 ”可 分 开 球形 数据 - 重心 法 结果 


CM —] OO 


— pH o Uu [x Un 


a BEA 


代码 清单 4-8 不 能 完全 分 开 的 球形 数据 比较 


CLUSTER  eoe ] 


图 4-24 可 分 开 球 形 数据 - 两 阶段 密度 法 


AAA 了 


疆 


ER 


+++ 3 


ods listing close; 


ods html 


r 


ods graphics on; 

options 1s-72 ps-40; 

/*1 步 模拟 产生 数据 */ 

data data closer; 
keep x y c; 
n-20;scale-1; 
mx-0;my-0;c-3;link genera 
mx-3;my-0;c-1;link genera 
mx-1;my-2;c-2;link genera 


stop; 


Ce; 
Ce; 


generate: 

do i-1 to n; 
x-rannor (9) *scaledmx; 
y-rannor (9) *scaledmy; 


output; 


end; 
return; 


run; 


/*2 步 设 定 作 图 的 宏 */ 
$macro plotit (indata-,c-); 
goption hsize=5 vsize-4; 


symboll col 


Ce; 


or-red interpol-none value-circle width-0.5; 


symbol2 color=blue interpol-none value-triangle width-0.5; 


proc gplot data-&indata.; 
plot y*x-&c.; 


run; 
$mend; - 
/*3 步 展示 原始 分 类 */ 


title ' 原 始 数 据 分 类 '; 


$plotit (indata-da 
$macro cl 
proc clus 

me 


ta closer,c-c); 


ter data-&indata. ou 


ttree=tree 


thod=&method. noprint; 


ver 


proc tree noprint out-out n-23; 
copy X y; 


run; 


title &method name.; 


$plotit (indata-out, c-c] 


$mend; 


/* A RE 


$cluster(indata-data closer,me 
/*6 步 类 WARD 离 差 平 方 和 法 分 类 */ 
%cluster (indata=data closer,me 
/*7 重 心 法 分 类 */ i 
$cluster(indata-data closer,me 
/*8 两 阶段 密度 法 分 类 */ — 
scluster (indata=data closer,me 
proc fastclus 
var x y; 
title'FASTCLUSXÉ2S4) fr ' ; 


E 离 法 分 类 */ 
$cluster(indata-data closer,me 


/*5 步 类 平均 法 分 类 */ 


quit; 
ods html 


$plotit (indata-out, c-c] 


close; 


ods listing ; 


为 进一步 


N 


luster); 


luster); 


比较 系统 分 类 法 各 原理 算法 在 不 能 完 
步 ， 分 别 使 用 不 同 的 算法 进行 聚 类 ， 


thod-centroid,mel 


thod-twostage,me! 
data-data closer out-out maxc-3 noprint; 


uster (indata-,method-,method name-); 


全 分 开 的 球形 数据 的 


thod=sign,method name= 最 短 距离 法 ) ; 
thod-averge,method name= 类 平均 法 ) ; 
thod-ward,method _name= 离 差 平方 和 法 ) ; 
rhodqd_name= 重 心 法 ) ; 


thod name= 两 阶段 密度 法 ) ; 


PA 


JJ 


进行 展示 ， 如 图 4-25 ~ 4-30 所 示 。 


BH 


果 之 间 的 异同 ， 以 上 程序 首先 模拟 了 一 份 不 能 完全 分 开 的 球形 数据 ， 并 通过 图 形 展示 出 最 原始 数据 的 分 类 结果 。 随 


后 在 4~8 


m =l 0 l 2 3 4 5 
X 
CLUSTER wao] saa 2 +++ j 


图 4-25 ”不 可 分 开 球 形 数据 - 最 短 距 离 法 结 


如 上 图 所 示 ， 结 果 表 明 对 于 不 能 完全 分 开 的 球形 数据 ， 系 统 分 析 法 的 各 原理 算法 之 间 差 异 非 常 大 。 通 过 比较 ， 不 难 发 现 ward 离 差 平方 和 法 、 类 平均 法 、 重 心 法 、 两 阶段 密度 估计 法 和 Fastclus 聚 类 分 析 
的 分 类 形状 差不多 。 仔 细 比 较 可 以 发 现 ward 离 差 平方 和 法 和 Fastclus 聚 类 分 析 这 两 种 方法 对 这 种 类 型 的 数据 分 类 效果 最 好 ， 最 短 距离 法 最 差 。 


y 类 平均 法 
4 


CLUSTER 9925] 444 2+++ 3 


图 4-26 “不 可 分 开 球形 数据 - 类 平均 法 结果 


y 离 差 平方 和 法 


CLUSTER 20o 1aama2 +++ 3 


图 4-27 ”不 可 分 开 球 形 数据 - 离 差 平方 和 法 结果 


y 重心 法 


CLUSTER Gon] saasa 2 +++ 3 


图 4-28 不 可 分 开 球 形 数据 一 两 阶段 密度 法 结果 


y 两 阶段 密度 法 


CLUSTER D00 ] AAA 2 +++ 3 


图 4-29 ”不 可 分 开 球 形 数据 一 两 阶段 密度 法 结果 


y FASTCLUS 聚 类 分 析 


BAE oc , 
HX 2s ooo | 4442 +++3 
图 4-30 “不 可 分 开 球 形 数 据 -FASTCLUS 结 


3. 对 于 样本 大 小 不 等 的 球形 数据 的 比较 
以 上 我 们 比较 了 对 于 能 完全 分 开 和 不 能 完全 分 开 的 球形 数据 的 距离 情况 ， 下 面 我 们 将 比较 一 个 各 算法 在 样本 大 小 不 等 的 情况 下 ， 对 聚 类 结果 的 比较 。 假 设 三 个 二 维 正 态 分 布 的 随机 抽样 序列 ， 每 个 总 体 
抽取 容量 分 别 取 20、80 和 40， 服 从 如 下 分 布 : 


人 (Li 2.9: i=] a A 3 


] 6 3 


A = o ^2 28 o p 3 -— 4 , 


2,12025L, J = 4I, ,71,,/21,2,3 


结果 表明 对 于 样本 大 小 不 等 的 球形 数据 ， 系 统 分 析 法 的 各 原理 算法 之 间 差 异 非 常 大 。 通 过 比较 ， 不 难 发 现 FASTCLUS、ward 离 差 平方 和 法 、 类 平均 法 、 重 心 法 、 两 阶段 密度 估计 法 的 分 类 大 体形 状 差 不 
多 ，FASTCLUS、ward 离 差 平 方 和 法 偏向 于 产生 大 小 相等 的 类 ， 类 平均 法 偏向 于 产生 方差 相等 的 类 ， 最 短 距离 法 去 掉 了 很 多 观测 。 对 于 样本 大 小 不 等 的 球 类 数据 ， 重 心 法 和 两 阶段 密度 估计 法 的 分 类 效果 最 
好 。 因 此 ， 大 家 如 果 在 使 用 聚 类 分 析 时 ， 如 果 只 是 想 产 生 大 小 相同 的 类 ， 建 议 使 用 FASTCLUS 和 ward 离 差 平方 和 法 ， 如 果 想 追求 比较 好 的 分 类 效果 ， 建 议 使 用 重心 法 和 两 阶段 密度 估计 法 ， 不 建议 使 用 最 短 
距离 法 。 

4. 对 于 并 排 拉 长 数据 的 比较 

以 上 我 们 比较 的 都 是 球形 的 数据 ， 那 么 对 于 非 球形 数据 ， 各 算法 是 否 能 很 好 地 解决 分 类 问题 呢 ? 下面 我 们 将 比较 一 个 各 算法 在 并 排 拉 长 数据 的 情况 下 的 聚 类 结果 。 假 设 二 个 二 维 正 态 分 布 的 随机 抽样 序 
列 ， 每 个 总 体 抽取 容量 分 别 取 80 和 100， 服 从 如 下 分 布 : 


其 中 ， 


代码 清单 4-9 并排 拉 长 数据 比较 


1? I 


ods listing close; 

ods html ; 

ods graphics on; 

options 1s-72 ps-40; 

data data elongate; 
keep x y C; 


ma-8;mb-20;n-120;c-1;link generate; 
ma-6;mb-8;n-80;c-2;link generate; 


stop; 
generate: 
do i-1 to n; 
a-rannor (9)*6-4ma; 
b-rannor (9) *mb; 
x-a-b; 
y-actb; 
output; 
end; 
return; 
run; 
/*2 步 设 定 作 图 的 宏 */ 
$macro plotit (indata-,c-); 
goption hsize=5 vsize-4; 


symboll col 


or-red interpol-none value-circle width-0.5; 


symbol2 color-blue interpol-none 
proc gplot data-&indata.; 
plot y*x-&c.; 
run; 
$mend; 
/*3 步 展示 原始 分 类 */ 
title ' 原 始 数 据 分 类 '; 


value-triangle width=0.5; 


%plotit (indata=data elongate, C=C); 


$macro cluster (indata=, method=, method names) ; 


proc cluster data=&indata. out 
method-&method. noprint; 
proc tree noprint out=out n=2; 
copy X Y; 
run; 
title &method name. ; 
%plotit (indata-out,c-cluster); 


tree=tree 


$mend; 

/*4 步 最 短 距离 法 分 类 */ 

scluster (indata=data elongate,me 
/*5 步 类 平均 法 分 类 */ 

%cluster (indata=data elongate,me 


thod-sign,method name= 最 短 距离 法 ) ; 


thod-averge,method name= 类 平均 法 ) ; 


/*6 步 类 WARD 离 差 平方 和 法 分 类 */ 


scluster (indata=data elongate,me 
/*7 重 心 法 分 类 */ 


thod=ward, method_name= 离 差 平 方 和 法 ) ; 


— 
~ 


thod=centroid,met 


hod name- 重 心 法 )， 


thod=twostage,method_name= 两 阶段 密度 法 


scluster (indata=data elongate,me 
/*8 两 阶段 密度 法 分 类 */ 
scluster (indata=data elongate,me 
proc fastclus data=data elongate 
var X y; 
title'FASTCLUS 聚 类 分 析 ' ; 
run; 
$plotit (indata-out,c-cluster); 


quit; 
/*9 步 ACECLUS 分 析 */ 


out-out maxc-2 noprint; 


proc aceclus data-data elongate out-ace p-0.1; 


var x y; 
title'ACECLUSAHW '; 
goption hsize=5 vsize-4; 


symboll col 


or-red interpol-none value-circle width-0.5; 


symbol2 color=blue interpol-none 
proc gplot data-ace; 

plot can2*canl; 
run; 


cluster (indata-ace,met 


10 步 转换 后 类 平均 法 分 类 


* 
"i 


/ 


value-triangle width-0.5; 


hod-sign,method name= 最 短 距离 法 ) ; 


luster (indata=ace, met 
VUERHUS WARD EE 
luster (indata-ace,me! 
12 步 转换 后 重心 法 分 类 */ 
luster (indata=ace, met 
LSERCHUS PEUT EUIS RERO] 


luster (indata-ace,met 


方 和 法 分 类 */ 


oo 7. o? ^. o? ^. o? ^. oo 
+O- x0 An 


Q 


为 进 
使 用 不 同 的 算 


一 步 比较 系统 分 类 法 各 原理 算 


thod=ward, method_name= 离 差 平 方 和 法 ) ; 


hod-twostage,met 


法 在 并 排 拉 长 非 球形 数据 的 分 类 
法 进行 聚 类 ， 并 进行 展示 ， 结 果 并 不 良好 。 因 此 ， 


thod- averge, method name= 类 平均 法 ) ; 


— 
~ 


thod-centroid,method name= 重 心 法 ) ; 


hoq_name= 两 阶段 密度 法 ) ; 


随后 9 步 进 和 


3 


最 短 距离 法 和 两 阶段 密度 估计 法 的 分 类 效果 最 好 。FASTCLUS、ward 离 差 平方 和 法 、 
在 对 于 并 排 拉 长 非 球 形 数 据 ， 最 短 距离 法 和 两 阶段 密度 估计 法 相对 比较 好 ， 但 是 对 数据 进 


预 处 理 。 


5. 对 于 其 他 形状 的 非 球形 数据 比较 


类 平均 法 以 及 重心 法 均 以 失败 告终 。 随 


行 预 处 理 后 


， 各 种 算 


法 均 能 很 好 地 对 数据 进 


结果 之 间 的 异同 ， 以 上 程序 首先 模拟 了 一 份 并 排 拉 长 的 非 球 形 数据 ， 并 通过 图 形 展示 出 最 原始 数据 的 分 类 
了 ACECLUS 分 析 ，10 ~ 13 步 并 对 转换 后 的 结 


各 算法 进 行 聚 类 


， 对 数据 进 


N 
行 分 类 ， 


结果 。 随 后 在 4~ 8 步 ， 分 别 
分 析 。 


行 预 处 理 后 用 任何 一 种 方法 都 会 得 到 较 好 的 分 类 。 结 果 表 明 ， 
因此 ， 对 于 并 排 拉 长 的 非 球形 数据 ， 建 议 首先 还 是 对 数据 进行 


以 上 我 们 比较 了 并 排 拉 长 数据 ， 那 么 非 并 排 拉 长 非 球 形 数据 结果 又 会 是 怎样 ? RIBUS ECL eS EU TERAUEAABUAEBUESURBU— RRR. 


代码 清单 4-10 ”其 他 非 球 形 数据 比较 


ods listing close; 
ods html ; 
ods graphics on; 
options 1s-72 ps-40; 
/*1 步 模拟 数据 */ 
data data noncon; 
keep x y ; 
do i-1 to 100; 
8-i*.0628319; 
x=cos (a) * (1550) vrannor (7) *.1; 
y-sin (a) -* (1550) *0.3*rannor (7) *.1; 
output; 
end; 
run; 
/*2 步 设 定 作 图 的 宏 */ 
$macro plotit (indata-,c-); 
goption hsize=5 vsize-4; 
symboll color-red interpol-none value-circle width-0.5; 
symbol2 color=blue interpol-none value-triangle width-0.5; 
proc gplot data-&indata.; 
plot y*x-&c.; 
run; 
$mend; 
/*3 步 设 定 聚 类 的 宏 */ 
smacro cluster (indata=,method=,method name-); 
proc cluster data=&indata. outtree=tree 
method=&method. noprint; 
proc tree noprint out-out n-2; 
copy X y; 
run; 
title &method name.; 
$plotit (indata-out,c-cluster); 
$mend; 


/*4 步 最 短 距 离 法 分 类 */ 

$cluster (indata=data noncon,method-sign,method name= 最 短 距 离 法 ); 
/*5 步 类 平均 法 分 类 */ 0 n 
$cluster (indata-data noncon,method-averge,method name= 类 平均 法 ) ; 
/*6 步 类 WARD 离 差 平 方 和 法 分 类 */ " 
$cluster (indata-data noncon,method-ward,method name= 离 差 平方 和 法 
/*7 重 心 法 分 类 */ 
Scluster (ingdata=data noncon,method-centroid,method name= 重 心 法 ) ; 
/*8 两 阶段 密度 法 分 类 */ 
$cluster(indata-data noncon,method-twostage,method name= 两 阶段 密度 法 ) ; 
proc fastclus data-data noncon out-out maxc-2 noprint; 


~ 一 


rd 


var x y; 
title'FASTCLUS 聚 类 分 析 ' ; 
run; 


$plotit (indata-out,c-cluster); 


quit; 
/*9 步 ACECLUS 分 析 */ 
proc aceclus data=data noncon out=ace p=0.1; 
var x y; z 
title'ACECLUS 分 析 '; 
goption hsize=5 vsize-4; 
symboll color=red interpol-none value-circle width-0.5; 
symbol2 color=blue interpol-none value-triangle width-0.5; 
proc gplot data-ace; 
plot can2*canl; 
run; 


$cluster (indata-ace,method-sign,method name= 最 短 距离 法 ) ; 
/*10 步 转换 后 类 平均 法 分 类 */ J 
$cluster (indata-ace,method-averge,method name= 类 平均 法 ) ; 
/*11 步 转换 后 类 WARD 离 差 平 方 和 法 分 类 */ u 

$cluster (indata-ace,method-ward,method name= 离 差 平方 和 法 
/*12 步 转换 后 重心 法 分 类 */ 5 

$cluster (indata-ace,methodecentroid,method name= 重 心 法 ) ; 
/*13 步 转换 后 两 阶段 密度 法 分 类 */ i 
$cluster (indata-ace,method-twostage,method name= 两 阶段 密度 法 ) ; 


— 


rd 


为 进一步 比较 系统 分 类 法 各 原理 算法 在 非 球形 数据 的 分 类 结果 之 间 的 异同 ， 以 上 程序 首先 模拟 了 一 份 非 并 排 拉 长 的 非 球形 数据 ， 随 后 在 4~ 8 步 ， 分 别 使 用 不 同 的 算法 进行 聚 类 ， 并 进行 展示 ， 结 果 并 不 
良好 。 因 此 ， 随 后 又 进行 了 ACECLUS 分 析 ，10 ~ 13 步 对 转换 后 的 结果 ， 通 过 各 种 算法 进行 聚 类 分 析 。 


如 图 4-31~ 图 4-35 所 示 ， 最 短 距离 法 和 两 阶段 密度 估计 法 的 分 类 效果 最 好 。FASTCLUS、ward 离 差 平 方 和 法 、 类 平均 法 以 及 重心 法 均 以 失败 告终 。 预 处 理 对 于 该 类 型 数据 不 起 作用 。 


y RALEA IA 


CLUSTER *99e»] 4447 


图 4-31 非 球形 数据 - 最 短 距 离 法 结果 


y 类 平均 法 


CLUSTER col aaa? 


图 4-32” 非 球形 数据 — 最 短 距 离 法 结果 


y 离 差 平方 和 法 


CLUSTER 995]  Á 2222 


图 4-33” 非 球形 数据 一 离 差 平 方 和 结果 


y 重心 法 


CLUSTER oo0l] aaa? 


图 4-34 ” 非 球形 数据 -重心 法 结果 


y 两 阶段 密度 法 


CLUSTER oo] aaa? 


El4-35 FRE EE - 两 阶段 密度 法 结果 
对 数据 预 处 理 后 ， 各 聚 类 算法 的 结果 ， 如 图 4-36 所 示 。 
结果 表明 ， 在 对 于 以 上 非 球形 数据 ， 最 短 距离 法 和 两 阶段 密度 估计 法 相对 比较 好 ， 同 时 预 处 理 对 该 类 数据 不 起 作用 ， 因 为 两 个 总 体 的 协 差 阵 不 等 。 


总 体 来 说 ， 一 是 我 们 可 以 看 到 不 同形 状 的 数据 应 采用 不 同 的 方法 。 即 每 种 聚 类 方法 的 适用 数据 类 型 不 同 ， 在 不 知道 数据 的 类 型 时 ， 建 议 用 “两 阶段 密度 估计 法 ”尝试 一 次 。 


Can2 ACECLUS 分 析 


-10 -9 —-8& -7 -0 —5—4 -3-2-1 0 1 2 3 4 5 6 7 8 9 IO 
Canl 
E4-36  3EXEJE JGUE—ACECLUE AH 
二 是 建议 画 散 点 图 ， 如 变量 很 多 ， 先 利用 princomp 过 程 得 到 主 成 分 变量 ， 然 后 画 散 点 图 ， 直 观 猜 一 下 类 的 类 型 及 类 的 个 数 。 


三 是 建议 在 画 散 点 图 后 发 现 是 非 球形 数据 时 ， 可 以 尝试 先 做 预 处理 再 使 用 聚 类 方法 尝试 。 


快速 聚 类 法 又 称 动态 聚 类 法 ， 或 kmeans 方 法 ， 一 般 当 观测 个 数 较 多 (大 于 100) 时 使 用 ，FASTCLUS 过 程 的 具体 聚 类 步骤 : 
第 一 、 选 择 若 干 点 作为 各 类 的 中 心 ; 


第 二 、 把 每 个 观测 分 到 与 各 类 中 心 最 近 的 类 中 去 ， 形 成 临时 分 类 ， 用 逐个 修改 法 (每 次 分 配 一 个 观测 到 各 类 中 去 ， 并 重新 计算 该 类 的 均值 。 此 过 程 不 断 重复 ， 直 到 每 个 观测 都 被 分 到 某 一 类 中 去 为 止 或 
按 批 修改 法 在 所 有 观测 都 归 类 后 再 计算 各 类 的 重心 ) ， 


第 三 、 所 有 观测 分 完 后 ， 类 中 心 由 各 类 均值 点 取代 ; 
第 四 、 根 据 各 观测 与 新 类 中 心 的 距离 进行 再 分 类 ; 
寺 续 循环 直到 所 有 类 别 中 心 的 改变 很 小 或 者 达到 事先 规定 的 最 大 循环 次 数 为 止 。 


从 以 上 流程 可 以 看 出 ， 快 速 聚 类 法 包含 了 四 个 关键 步骤 : 凝聚 点 (类 中 心 ) 的 选择 、 初 始 分 类 的 方法 、 修 改 分 类 的 方法 和 分 类 是 否 合理 的 判定 。 


快速 聚 类 法 又 称 动态 聚 类 法 ， 或 kmeans 方 法 ， 一 般 当 观测 个 数 较 多 (AF100) 时 使 用 ，FASTCLUS 过 程 的 具体 聚 类 步骤 : 
第 一 、 选 择 若 干 点 作为 各 类 的 中 心 ; 


第 二 、 把 每 个 观测 分 到 与 各 类 中 心 最 近 的 类 中 去 ， 形 成 临时 分 类 ， 用 逐个 修改 法 (每 次 分 配 一 个 观测 到 各 类 中 去 ， 并 重新 计算 该 类 的 均值 。 此 过 程 不 断 重复 ， 直 到 每 个 观测 都 被 分 到 某 一 类 中 去 为 止 或 


按 批 修改 法 在 所 有 观测 都 归 类 后 再 计算 各 类 的 重心 ) ， 
第 三 、 所 有 观测 分 完 后 ， 类 中 心 由 各 类 均值 点 取代 ; 
第 四 、 根 据 各 观测 与 新 类 中 心 的 距离 进行 再 分 类 ; 
寺 续 循环 直到 所 有 类 别 中 心 的 改变 很 小 或 者 达到 事先 规定 的 最 大 循环 次 数 为 止 。 


从 以 上 流程 可 以 看 出 ， 快 速 聚 类 法 包含 了 四 个 关键 步骤 : 凝聚 点 (类 中 心 ) 的 选择 、 初 始 分 类 的 方法 、 修 改 分 类 的 方法 和 分 类 是 否 合理 的 判定 。 


4.8.3 RERI AERA 


1) 快速 聚 类 法 的 优点 是 计算 量 小 ， 处 理 速 度 快 ， 特 别 适 合 大 样本 的 聚 类 分 析 ; 


2) 快速 聚 类 法 是 发 现 异 常 值 的 有 效 方法 ， 因 为 异常 值 通常 会 出 现在 只 有 少数 观测 的 类 中 。 使 用 Minowski 距 离 度量 时 ，m 越 大 ， 异 常 值 对 聚 类 结果 的 影响 越 大 ; 反之 ，m 越 小 ， 异 常 值 对 于 聚 类 结果 的 
影响 越 小 。 


3) 快速 聚 类 法 等 价 于 通过 循环 使 得 达到 最 小 值 。 通 常 只 能 找到 局 部 最 小 值 而 不 是 全 局 最 小 ， 因 而 不 同 的 初始 点 会 导致 不 同 的 聚 类 结果 。 弥 补 这 一 缺点 的 一 种 方法 是 使 用 不 同 初始 点 进行 多 次 聚 类 ， 最 后 
选取 对 应 值 最 小 的 聚 类 结果 。 


4) 快速 聚 类 法 不 适合 用 于 发 现 数据 分 布 形状 非 凸 (如 香 焦 型 ) 的 类 别 。 


类 法 


NU 
i 


49 Mz 


两 步 聚 类 法 是 指 对 观察 先 利 用 快速 聚 类 法 先 聚 成 若干 小 类 ， 再 根据 初次 生成 的 小 类 再 次 聚 成 若干 类 的 一 种 方法 。 也 是 数据 挖掘 的 一 种 方法 ， 主 要 用 到 了 快速 聚 类 和 系统 聚 类 。 本 章 主 要 结合 某 银行 手机 
银行 客户 的 相关 数据 ， 通 过 两 步 聚 类 法 来 详细 说 明 聚 类 分 析 在 数据 挖掘 过 程 中 的 应 用 ， 其 包含 了 系统 聚 类 法 和 快速 聚 类 法 等 算法 。 


4.9.2 ”两 步 聚 类 法 实现 


以 银行 零售 客户 渠道 偏好 数据 进行 两 步 聚 类 分 析 如 下 。 


代码 清单 4-12 ”ActionScript 类 代码 


libname clus "F:NCLUS DATA"; 

run; i 

/***1 .数据 处 理 xx*x/ 

proc contents data-clus.clus mobcust noprint out-var list; 
run; 

/*2 对 变量 进行 数据 探索 */ 

/x*2.1 定 义 计 算 各 数值 变量 描述 统计 量 的 宏 函 数 */ 

$macro nvardescrip (data-,out-); 

proc contents data-&data. out-a0 noprint; 


run; 

proc sql; 

select name into:nvars separated by " " from a0 where type-1 and name ne 'CUST ID'; 
quit; 

$put &nvars.; 

$let i-1; 

$do $until($scan(&nvars,&i," ")-2); 

$let varname-$scan(&nvars,&i," "); 


proc univariate data-&data noprint; 
var &varname.; 


output out-al nmiss-nmiss mean-mean std-std min=min qi-q1 median-median q3-q3 max- max; 
run; 

data al; 

retain name nmiss mean std min Q1 median Q3 max; 

set al; 


length name $50.; 

name-"&varname."; 

label name=" 变 量 名 " nmiss-" AA" mean-"J9fli" std=" 标 准 差 "” min=" 最 小 值 "” O1=" 下 四 分 位 数 " median=" 中 位 数 " 03=" 上 四 分 位 数 " max=" 最 大 值 "; 
run; 

$if &i-i $then $do; 

data &out; 

set al; 

run; 
Send; 

Selse do; 

proc append base-&out data-al; 
run; 


$let i-$eval(&i-*1); 


PU E clus.clus mobcust,out-work.nvars description); 
/*3 数据 清理 */ 

data work.nvar values; 

set work.nvars description; 


if median-min then delete-1;else delete-20; 
if delete-0; 
run; 


data work.clus mobcust; 
set clus.clus mobcust; 


if THMON ATM DRAW CNT = 0 then LNTHMON ATM DRAW CNT= 
log (THMON . ATM me ;else LNTHMON . ATM . DRAW | CNT =0 ; 
—— ; HE) 
run; 
proc contents data-work.clus mobcust noprint out-var list; 
run; B B 
proc sql; 
select name into:nvarsl separated by " " from work.var list where name ^= 'CUST ID'and substr (name,1,2)-"IN"; 
quit; E B 
$put &nvarsl.; 
data a; 
set work.clus mobcust; 


keep  &nvarsl. CUST ID; 


/*4. .进行 变量 压缩 分 析 */ 
/*4.1 主 成 分 降 维 ， 

$put  &nvarsl.; 

proc princomp da 
var  &nvarsl.; 

run; 


ta-d out-prin; 


goption hsize=5 vsize-4; 


1 col 


行 可 视 化 展示 关 炎 大 大 大 大 大 大 大 大 大 大 大 大 大 大 大 / 


width-0.5; 


symbo] 
symbo] 


2 co] 


or-red interpol-none value-circl 


or-blu 


proc gplot data-prin; 


plot prin2*prinl; 


run; 


/* 该 数据 表现 为 球形 数据 ， 不 需要 做 ACE 
/*4 .2 通过 变量 聚 类 i 
proc varclus data-clus mobcust MAXEIGEN=0. 
&nvarsl.; 


var 
run; 


JS E 


$let input 


行 变量 的 压缩 x/ 


上 定 最 终 肾 类 变量 数 ****/ 
=LNTHMON MBANK TRAN CNT 


LNTHMON 


; HR) 


Joe .初步 聚 类 xxxx/ 


/***5.1 


proc stdize data-d(keep- CUST 


j 极 差 标 ; 


(BANK TRAN CNT 


准 化 原 数 据 ***/ 


outstat=s 


run; 


/***5. 2 li Ex x / 


proc 
var 
run; 


&inp 


ut ; 


/xxx5.3 获 取 聚 类 后 的 均值 


proc mean 


class CLUSTER; 
var &input; 


tat out out-out std; 
var &input; 


fastclus data-out std maxc-50 out-out . 


*x*/ 


S data-out 


“Ar 


output ou 
run; 


/xxxx5.4 对 均值 数据 集 


ter data-out mean 


proc clus! 


C—out mean 


. fstcl nway; 


pa 
E 
E 
Dom 
~ 


ECLU 


interpol-none value=triangle width=0.5; 


S 分 析 */ 


ID &input) method-range 


75 outtree-fortree; 


:注意 运用 WARD 方 法 ***/ 


n(keep=&input CLUSTER rename= 


fstcl outstat=fst out drift; 


(CLUSTER-CLUSTERI)) 


ccc pseudo method-ward  outtree-fortree2; /*k-6*/ 


var &input 
copy CLUS 
run; 


proc gplot; 


C; 


TERI ; 


of 


symboll v=star color=black; 


symbo] 


2 v-triangle color-red; 


plot psf 


* ncl =] 


run; 
quit; 


/xxx5.5 运 月 


pst2 * ncl -2/overlay legend; 


日 树 状 图 获取 最 终 聚 类 数 :比较 CCC; PSEUDO 


等 参数 值 , 局 部 值 越 大 


proc tr 
Copy CLUS 
run; 


proc sql; 
creat 


data-f 


ortree2 nclusters-8 out-out tree; 


TERI ; 


tabl 


result as 


select a.*,b.cluster as big clus, 


as 


£] ag 


out fstcl as a 
join out tree as b 


on 
r 


quit; 


要 分 为 以 下 几 大 步 : 第 1 步 进 行 
通过 系统 聚 类 法 再 对 小 类 进 


随后 ， 


第 1 ~ 2 步 获 取 全 部 变量 名 称 ， 
1) 是 很 多 变量 超过 5 
2) 是 变量 分 布 过 于 偏 态 ， 
3) 是 存在 3 倍 标准 差 外 的 观察 ， 
BFAR FERRARIN, FRE 


第 4 步 通过 变量 聚 类 进 


a.cluster - 


^ 


b.clusterl1 


赋值 给 


数据 处 理 获取 变量 清单 ， 第 2 步 进行 


行 聚 类 。 


合 宏 ， 以 便 后 续 使 用 。 第 2 步 


越 好 xxx/ 


数据 探索 发 现 以 下 问题 : 


0% 的 值 都 为 0，16 个 变量 这 样 的 变量 区 分 能 力 太 差 ， 因 此 直接 剔除 ; 
进行 数据 转换 ， 
剔除 异常 点 。 
别 除 在 5 售 标 准 差 外 的 观察 。 
行 变量 压缩 和 筛选 结果 如 表 4-13 所 示 。 
表 4-13 两 步 


数据 探索 分 析 ; 第 3 步 进 行 


数据 清理 工作 ; 第 4 步 进 4 


kalo 


压缩 ; 第 5 步 进 和 


J 两 步 


类 分 析 ， 首 先 通 过 FASTCLUS 进 


行 样本 快 i 


em 


9 个 聚 类 1_R? tk 
聚 类 变量 自己 的 聚 类 | 下 一 个 最 靠近 的 
INTHMON MBANK FEE CNT | 0053 


LNTHMON MBANK FEE CNT 0.712 6 0.053 0.303 5 


0.178 4 
Cluster 5 0.2023 
0.236 6 
0.294 
0.140 9 
(5) 
TrT pt 
Rž 


Cluster 9 LNYEAR MBANK PAY TX AMT 0.035 1 0.205 6 


LNYEAR MBANK PAY TX CNT 0.801 6 0.037 2 0.206 1 


考虑 业务 的 同时 结合 1-R< 最 小 的 原则 ， 确 定 了 最 后 进行 聚 类 分 析 的 9 个 变量 。 


第 5 步 ， 首 先 通过 快速 聚 类 法 对 观测 进行 聚 类 分 析 ， 聚 为 50 个 小 类 。 使 用 系统 聚 类 法 中 的 离 差 平 方 和 法 对 所 产生 的 50 个 小 类 再 进行 聚 类 分 析 ， 发 现 伪 F 统 计量 和 t 统 计量 如 图 4-37 所 示 。 
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th F 统计 量 


x GE 
ze A 54 


PLOT **<* 伪 下 统计 量 555 伪 工 方 统计 量 


图 4-37 两 步 聚 类 法 伪 F 值 和 伪 t 统 计量 


通过 伪 F 统 计量 和 伪 t 统 计量 结合 起 来 看 ， 选 择 类 别 的 个 数 使 得 伪 F 统 计量 达到 局 部 峰值 ， 同 时 相应 的 伪 t 统 计量 比较 小 但 在 下 一 个 合并 步骤 比较 大 。 昌 然 伪 F 统 计量 在 5 类 的 时 候 达 到 峰值 ， 但 是 此 时 ，i 统 
计量 并 不 符合 要 求 。 选 择 聚 为 8 类 时 ， 在 聚 为 8 类 的 时 候 的 伪 t 统 计量 比较 小 但 在 下 一 个 合并 步骤 比较 大 ， 同 时 此 时 伪 F 统 计量 接近 峰值 。 因 此 ， 最 终 确定 将 全 部 观察 分 为 8 类 。 


第 6 步 ， 对 生成 的 50 个 小 类 ， 再 通过 系统 聚 类 法 进行 聚 类 。 为 了 避免 因为 很 多 异常 值 导致 样本 大 部 分 被 分 到 同一 类 ， 在 选择 系统 聚 类 法 的 时 候选 择 离 差 平 方 和 法 ， 该 方法 倾向 于 先 合 并 观测 少 的 类 ， 而 
且 严 重 偏向 于 产生 相等 观察 个 数 的 类 。 


410 EJA 


通过 对 本 章 的 学 习 ， 你 将 了 解 到 聚 类 分 析 的 全 流程 ， 同 时 对 聚 类 分 析 的 各 关键 细节 会 有 较 深 入 的 了 解 ， 同 时 ， 你 将 了 解 针 对 不 同类 型 数据 ， 应 选择 使 用 哪 种 聚 类 算法 ， 以 及 各 种 不 同 聚 类 算法 的 优 和 缺点 
和 两 步 聚 类 法 的 使 用 。 同 时 ， 本 章 提供 了 用 于 聚 类 分 析 的 全 部 SAS 代 码 ， 你 将 可 以 快速 的 运用 聚 类 分 析 方 法 到 个 人 的 工作 和 学 习 中 。 


特别 声明 ， 本 案例 数据 仅 为 介绍 方法 而 设计 ， 并 非 真实 数据 ， 结 论 不 可 直接 使 用 。 


5.3” 建 异 分 析 


建 模 分 析 是 从 信息 中 获取 知识 的 过 程 。 数 据 挖 掘 方法 分 为 分 类 和 描述 两 大 类 ， 其 中 预测 账户 的 违约 情况 属于 分 类 模型 。 使 用 Logistic 回 归 对 刚才 创建 的 数据 建立 模型 ， 最 终 得 到 结果 ， 如 图 5-12 所 示 。 
其 中 估计 得 到 的 回归 系数 就 是 知识 。 从 中 可 以 看 到 ， 最 近 三 年 内 交易 的 频次 和 账户 金额 的 平均 值 对 违约 有 负 向 作用 ， 最 近 三 年 的 平均 交易 金额 和 贷款 占 账户 金额 的 比例 对 违约 有 正 向 作用 。 严 格 来 讲 ， 得 到 
的 回归 系数 并 不 一 定 是 知识 ， 只 有 被 证 明 这 些 系数 是 无 误 的 、 可 解释 的 ， 并 且 是 稳定 的 ， 才 能 认为 是 知识 。 


更 进一步 ， 根 据 刚才 的 回归 公式 ， 可 以 预测 每 个 账户 的 违约 概率 ， 如 图 5-13 所 示 。 如 果 取 0.13 (这 是 违约 的 先 验 概率 ) 作为 阔 值 的 话 ， 大 于 0.13 的 被 认为 将 会 违约 ， 小 于 0.13 的 被 认为 正常 履约 。 


Bj, 查询 生成 器 5 - Loca WORK.ANALYSIS 


查询 名 称 (Q): B 


输出 名 称 : 


B 计算 列 (M) € 提示 管理 器 (P) A 预览 (日 US TR(O)- B 选项 (N) - 


日 是 ti ( ANALYSIS ) 
A 还 款 状态 


~@ AVG of balance 
| 49 GDP C570 


- 居住 人 口 
E, E m 
Q EIS 


-D 1995 年 失业 率 
| 3 1996 年 失业 率 
| 48 1000 人 中 有 多 少 企业 家 
-大 1995 犯 罪 率 ( 千 人 ) 
(3 1996 犯 罪 率 (FA) 
(0-0 每 月 归还 客 
-全 SESS 


Bil unpl gr 


m tran 


AVG of balance 


laon rate 


添加 表 (T) X 删除 (D) Eis ERES) 


选择 数据 对 数据 排序 


列 名 
status (还 款 状态 ) 
念 sex (性 别 ) 

Bage (EAD 


(3AVG of balance 

GDP (CDP( 万 元 )) 

at (EAD) 

Baio (城镇 人 口 比例 ) 

会 tl11 (平均 工资 ) 

Bal (1995 年 失业 率 ) 
Bals (1996 年 失业 率 ) 

国 失业 变化 率 

Bait (1000 人 中 有 多 少 企业 家 ) 
ais (1995 犯 菲 率 ( 千 人 )) 
名 al6 (1996 犯 非 率 《于 人 ) ) 
g 犯罪 变化 率 

payments 〈 每 月 归还 额 ) 
Qi anount (贷款 金额 ) 
Bllaon rate 

各 duration (贷款 期 限 ) 

4 


俊 选 择 非 重 复 行 (8) 


Er er EEC E- 
一 一 vegy P a a 


FORK. QUERY_FOR_ANALYSIS 


标识 符 
tl.status 
tl.sex 

tl. age 

tl.f tran 
tl.R. tran 
tl.m tran 
t1. AvYG of... 
t1. GDP 
tl.À4 

t1. A10 

t1. A11 

t1. A12 
tl.À13 

unpl gr 

t1. A14 
t1.A415 
tl.al68 

crm, gr 
tl.payments 
tl. amount 
laon rate 
tl. duration 


图 5-11 保存 结果 表 


图 5-12 ”模型 


图 5-13 ”对 每 个 账户 预测 违约 概率 
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0. 0497247403 


-人 
0. 0578719139 
0. 1035013514 


0. 0733196156 


-06528251647 
0. 0334301878 
0. 0948938146 


0. 1172297939 


p 
|. 0. 0154631111 
MM E 

"A OGOSAiUEOT 


得 到 上 一 步 的 预测 结论 ， 银 行将 会 在 不 同 的 决策 中 运用 。 在 贷款 审批 方面 ， 将 会 对 交易 频繁 的 客户 采用 更 高 的 引用 等 级 ， 并 且 减 少 贷款 占 比较 高 账户 的 贷款 额度 。 在 信贷 资金 管理 方面 ， 得 知 了 每 个 账 


户 的 违约 概率 后 ， 就 可 以 预 估 未 来 的 坏账 比例 ， 及 时 做 好 资金 安排 。 
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建 模 本 身 可 以 很 简单 ， 算 法 只 有 是 否 适合 某 一 个 应 用 场景 ， 没 有 就 优 训 务 ， 这 也 是 为 什么 在 大 数据 时 代 一 些 “ 很 者 ”的 算法 能 够 重新 焕发 出 生机 ， 被 人 “ 翻 出 来 ”广泛 使 用 。 算 法 之 外 ， 模 型 的 预测 能 
力主 要 体现 在 三 个 方面 : 其 一 ， 更 全 面 、 更 完整 、 更 细 粒 度 的 数据 变量 ， 大 部 分 预测 模型 仍然 遵从 惯性 定律 ， 以 过 去 推断 未 来 ， 变 量 履 盖 了 某 个 特定 角落 的 信息 ， 这 个 角落 的 规律 才 有 可 能 被 归纳 出 来 ; 其 
二 ， 对 数据 的 预 处 理 ， 例 如 在 金融 风险 领域 二 分 类 问题 的 挑战 是 正 负 样本 极 不 平衡 ，“ 坏 人 ” 占 比 极 低 且 “ 坏 的 方式 ”各 式 各 样 ， 仪 靠 大 数 定律 可 能 不 足以 发 现 规律 ， 如 何 对 这 些 数据 进行 转换 、 处 理 ， 变 
得 非常 关键 ; 其 三 ， 建 模 技巧 ， 针 对 具体 问题 ， 尝 试 不 同 的 算法 、 变 量 、 数 据 处 理 方法 ， 比 较 差 异 ， 总 结 规律 。 机 器 学 习 算 法 可 以 实现 自动 建 模 并 解放 人 力 ， 但 算法 本 身 的 设计 与 实现 则 依赖 于 大 量 建 模 实 


践 的 提炼 与 沉淀。 


本 章 介绍 的 是 行为 评分 模型 ， 方 法 和 思路 同样 适用 于 申请 评分 和 催收 评分 ， 只 是 训练 数据 和 预测 目标 不 同 。 对 于 高 阶 读者 ， 需 要 白 箱 算法 的 申请 评分 可 以 参照 第 3 章 介绍 的 完整 建 模 过 程 ， 需 要 使 用 黑箱 


算法 的 行为 评分 与 催收 评分 则 可 以 使 用 第 2 章 介绍 的 随机 森林 算法 ， 当 然 白 箱 建 模 方法 也 同样 适用 。 


特别 声明 ， 本 案例 数据 仅 为 介绍 方法 而 设计 ， 并 非 真 实数 据 ， 结 论 不 可 直接 使 用 。 


第 6 章 ope: 信用 卡 客 尸 流失 管理 案例 


德 荡 乎 名 ， 知 出 乎 人 争 。 名 也 者 ， 相 轧 也 ; 知 也 者 ， 争 之 器 也 。 二 者 凶器 ， 非 所 以 尽 行 也 。 


人 生 的 磨难 是 很 多 的 ， 所 以 我 们 不 可 对 于 每 一 件 轻 微 的 伤害 都 过 于 敏感 。 在 生活 磨难 面前 ， 精 神 上 的 坚强 和 无 动 于 训 是 我 们 抵抗 罪恶 和 人 生意 外 的 最 好 武器 。 
企业 的 最 终 目的 ， 在 于 创造 客户 并 留 住 他 们 一 一 彼得 - 德 鲁 克 。 


一 一 《庄子 . 人 间 世 》 


洛克 

市 场 的 变化 和 调整 ， 必 然 引 起 客户 变动 ， 从 一 家 企业 、 一 个 行业 转向 能 为 其 提供 更 优质 服务 、 更 契合 需求 的 产品 、 更 多 利益 回报 的 企业 或 行业 ， 对 于 客户 流入 的 企业 来 说 是 新 增 客 源 ， 对 于 客户 流出 的 

企业 来 说 就 是 客户 流失 。 以 余额 宝 为 代表 的 互联 网 理财 产品 迎合 了 大 众 对 资金 保值 增值 和 流动 性 的 双重 需求 ， 很 多 个 人 客户 将 原来 在 银行 的 活期 存款 挪 到 了 支付 宝 账户 ， 造 成 了 银行 业 活期 存款 客户 的 流 

失 ; 随 着 第 三 方 支付 牌照 的 发 放 以 及 二 维 码 、 微 信 红 包 等 便利 支付 手段 的 推出 ， 很 多 场景 下 客户 不 再 使 用 信用 卡 ， 根 据 51 信 用 卡 发 布 的 《2015 活 跃 用 户 信用 卡 消费 报告 》，2015 年 信用 卡 活跃 用 户 人 均 持 卡 

3.2 张 ， 支 付 手段 的 增加 以 及 持 卡 量 的 增多 ， 客 户 对 信用 卡 的 可 选择 余地 越 来 越 多 ， 换 句 话 说， 对 任何 一 家 信用 卡 公司 来 说 客户 流失 将 变 得 更 加 容易 。 

客户 关系 管理 领域 有 一 句 大 家 都 很 熟悉 的 话 : “获得 一 个 新 客户 的 成 本 是 留 住 一 个 老 客 户 的 5 倍 ， 而 一 个 老 客 户 贡献 的 利润 是 新 客户 的 16 倍 。” 因此 对 于 多 数 公司 来 说 ， 客 户 挽留 是 客户 生命 周期 管理 

的 重要 环节 。 昌 然 客户 流失 本 质 上 是 利益 驱动 ， 但 如 能 对 客户 流失 倾向 及 时 预警 ， 进 而 分 析 流 失 的 原因 ， 在 客户 作出 决定 之 前 ， 推 出 符合 兴趣 的 业务 或 产品 或 采取 措施 加 以 挽留 ， 将 能 有 效 降低 客户 流失 
率 。 当 然 ， 客 户 挽留 要 因 人 而 异 ， 具 体 来 说 要 结合 客户 流失 的 倾向 高 低 、 客 户 的 贡献 高 低 等 指标 ， 制 定 综合 挽留 方案 。 

结合 信用 卡 客户 流失 管理 案例 ， 介 绍 完整 的 客户 流失 预警 与 分 层 挽 留 过 程 ， 从 应 用 视角 展现 回归 、 分 类 和 聚 类 算法 的 组 合 运 用 ， 如 图 6-1 所 示 。 
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业务 目标 
预测 客户 的 流失 倾 问 和 挽留 价值 


优化 与 提升 


T 
分 客 群 挽留 策略 
收益 和 成 本 的 平 衔 


数据 准备 
数据 决定 结 


潜在 价值 
哪些 客户 更 值得 挽留 


流失 预警 


哪些 客户 即将 流失 


图 6-1 
6.2.4 ”准备 数据 宽 表 


客户 流失 管理 过 程 


经 过 上 面 三 个 步骤 ， 加 工 出 可 用 于 建 模 的 数据 宽 表 ， 按 照 客 户 号 一 一 列 出 目标 变量 和 预测 变量 ， 每 个 客户 一 条 记录 ， 如 表 6-2 所 示 。 其 中 : Csr_1D 是 客户 编号 ; Sta_Dte 是 统计 日 期 ， 即 观察 期 截止 日 
期 ;Evt_Flg 是 目标 变量 Y1 一 一 客户 半年 内 是 否 销 卡 (1 表示 销 卡 ) ; Value 是 目标 变量 Y2 一 一 半年 内 客户 价值 ; 其 他 


变量 是 预测 变量 
至 2015-1-31 和 2014-12-31 的 数据 ， 一 组 数据 用 于 训练 模型 ， 另 一 组 用 于 验证 模型 效果 。 相 关 书 籍 中 也 有 将 同一 个 时 间 窗 内 的 建 模 数据 随机 划分 为 训练 集 和 验证 集 的 方法 ， 但 这 种 划分 方法 不 能 验证 模型 的 
时 间 稳 定性 ， 而 且 当 数据 量 足够 大 时 ， 这 种 方法 检验 的 实际 上 是 随机 数 。 按 照 时 间 窗 平移 的 方法 ， 则 模拟 了 模型 的 实际 应 用 过 程 ， 结 果 更 可 靠 


预测 变量 X。 表 中 实际 上 包括 两 个 时 间 窗 的 数据 ， 各 个 变量 按照 Sta_Dte 分 别 取 截 


表 6-2” 建 模 宽 表 (部 分 样 例 ) 


Csr ID Sta Dte Evt Flg Gen R3m Avg Cns Amt | Buy Type | … 
1001 | 2015/1/31 200 


1002 2015/1/31 
1003 2015/1/31 
1004 2015/1/31 


ERN 
0 
Ooo 
1005 | 2015/1/31 | 1 | 
0 
NEN 
Olo 


1006 2015/1/31 


1001 | 2014/12/31 

1000 |201412/51 | 0 | 

1003 | 2014/1231| 0 | 

1004 |2014/2/31 | 0 | 243 

1005 | 20141231| 1 | 

1006 | 2014/1231| 0 | 
NEN 


6.3 WARE: 用 Logistic 回 归 构建 啊 应 率 模型 


流失 倾向 本 质 为 客户 近期 销 卡 的 概率 ， 是 典型 的 分 类 问题 ，Logistic 回 归 和 决策 树 是 解决 这 类 问题 的 主要 算法 ， 这 里 我 们 应 用 Logistic 回 归 算 法 。 


Logistic 回 归 本 身 并 不 复杂 ，SAS EG 或 者 开源 的 分 析 工 具 都 支持 这 个 算法 ， 甚 至 不 需要 写 代 码 ， 在 交互 界面 上 设置 几 个 参数 就 可 以 完成 建 模 、 评 分 ; 但 要 获得 更 好 的 模型 ， 通 常 需要 做 充分 的 数据 预 处 
理 ， 这 里 介绍 两 个 最 主要 的 数据 预 处 理 步骤 。 需 要 强调 的 是 ， 变 量 预 处 理 和 模型 训练 仅 使 用 训练 集 数 据 ， 即 表 6-2 所 示 中 sta_Dte= “2015-1-31” 或 “2014-12-31” 一 个 时 间 窗 内 的 记录 ， 应 用 建立 的 模型 
对 另 一 个 时 间 窗 的 验证 集 数 据 进行 评分 ， 评 估 模 型 效果 。 这 里 sta_Dte= “2014-12-31” 的 数据 作为 训练 集 。 


6.3.1 粗 分 类 


AK 


对 于 Logistic 回 归来 说 ， 变 量 粗 分 类 可 以 提高 预测 效果 和 计算 效率 。 


对 于 连续 变量 ， 针 对 每 个 变量 x， 按 照 目标 变量 的 分 布 ， 进 行 “ 有 监督 ”的 离散 化 分 组 。 举 个 例子 ， 图 6-5 左 图 中 显示 随 着 持 卡 时 长 Csr_Dur 的 增加 ， 客 户 的 销 卡 率 并 没有 呈现 出 增加 或 减少 的 规律 ， 或 
者 说 Csr_Dur 这 个 x 与 目标 变量 y 不 存在 线性 关系 ，Logistic 回 归 模 型 只 能 解释 线性 关系 ， 因 此 Csr_Dur 是 个 不 显著 的 变量 ， 将 被 弃 用 。 然 而 ， 根 据 y 的 分 布 对 Csr_Dur 进 行 分 组 后 发 现 ( 右 图 ) , Csr Dur 在 7~ 
12 个 月 、25 ~ 36 个 月 时 客户 销 卡 率 明 显 更 高 ，6 个 月 内 、13 ~ 24 个 月 和 37 个 月 以 上 的 客户 销 卡 率 差 不 多 。 经 过 变量 重 构 ， 像 Csr_Dur 这 样 原本 与 目标 变量 没有 单调 相关 关系 的 连续 变量 具有 了 预测 能 力 。 


HFK % 销 卡 率 % 


40% 
50 40 
35 
40 30 
30 25 
20 
20 15 
10 
10 š 5% 
0 Csr Dur 
0 5 10 15 20 25 30 35 40 45 50 6 个 月 内 、 7-12 个 月 、 


Csr Dur ”13-24 个 月 、37 个 月 以 上 25-36 个 月 


图 6-5 ”和 销 卡 率 vs Csr Dur 


再 说 类 别 变量 。 在 建 模 的 时 候 ， 会 先 把 类 别 变量 转换 为 虚拟 变量 ( 哑 变 量 ) 。 假 设 变量 “购物 类 型 ”有 40 个 不 同 的 取 值 ， 如 果 直 接 用 于 建 模 ， 则 需要 设计 39 个 虚拟 变量 (避免 共 线 性 ， 设 计 40-1 个 哑 变 
量 即 可 ) ， 这 就 意味 着 ， 当 一 个 类 别 变量 有 几 特 个 选项 时 ， 会 生成 几 百 个 哑 变 量 ， 如 果 有 数 自 个 类 别 变量 ， 就 会 有 数 自 万 个 变量 ， 这 对 计算 资源 是 很 大 的 挑战 。 


对 于 连续 变量 ，SAS 的 PROC SPLIT 过 程 步 提 供 了 粗 分 类 方法 ， 可 以 根据 x 变 量 与 目标 变量 y 的 关系 ， 实 现 最 佳 分 组 ， 让 每 个 组 内 的 目标 变量 取 值 接近 但 组 间 差 异 大 。 对 于 类 别 变量 ， 可 以 先 计算 每 个 类 别 


选项 的 WOE 值 ( 详 见 6.3.2 节 ) ， 然 后 同 连 续 变 


代码 清单 6- 


1 连续 变量 的 粗 分 类 代码 


*Train 训练 数据 集 ; 


量 名 称 ; 


*Target HAE 
*Leafsize 叶子 节点 最 小 规模 ; 
0 ee 
*Bin drop var 无 法 分 组 的 变量 数据 集 


*Split code pth 分 组 代码 输出 路 径 ) 


train,target,var numeric,minleaf 


set dm 
call 
stop; 
run; 
proc sql; 
drop 
drop 
quit; 
data null 
set 


null 


symput ('N VAR 


tab] 


量 那样 处 理 。 连 续 变量 的 粗 分 类 代码 如 下 : 


(Z) 


size,bin code interval,bin drop var numeric,split code pth); 


r 


in.var numeric NOBS-1ast; 


', last); 


table &bin code interval; 
e &bin drop var numeric; 


cad 


&var numeric; 
$£do i-1 


sto &N VAR; 


if N -&i then do; 
call 
symput ("TRAIN VAR &i' 了 
'||compress (name) | | ) ') ; 
end; 
Send; 
run; 
$macro train var; 
$do i-1 $to &N VAR; 
&&TRAIN VAR &i 
zend; 
$mend; 
data $train var; 
set &train; 
run; 
$do i-1 $to &N VAR; 
data Hull. : 
set &var numeric; 
if N -&i then do; 
call symput('SPLIT VAR',name); 
end; 
run; 
proc split data-T &split var outtree-tre &split var 


leafsize-&minleafsize criterion-chisq excludemiss; 


input &SPLIT VAR/level-interval; 
target &target/level-binary; 
run; 
proc sort data-tre &split var(where-(label-'«')) out-grp &split var; 
by y; 
run; 
proc sql noprint; 
select count(*) into:group 


quit; 


$if &group»0 $then 


from grp &split var; 


© 


$do; 


data cde &split var; 


set grp &split var end-last; 


length code $1000; 
retain tmp; 


if n -1 then do; 
code-"if "||compress("&split var.")||"-. then 
"||compress ("grp &split var--1;"); 
|^ A— grp var--1; 
var-"&split var"; 
output; 
tmp-compress (put (y,24.8)); 
code-"else 
if .«"||compress("&split var.")||"«"||compress (tmp) | |" then 
"I|compress("grp &split var-")||put( N ,5.)||";"; 
|»  grp var- N ; mE 
var-"&split var"; 
output; 
end; 
if n »1 then do; 
|. code-"else if 
"||compress (tmp)||"«-"||compress("&split var.")||"«"||compress (put (y,24.8)) || 
" then "||compress("grp &split var-")||put( N ,5.)||";"; 
grp var- N ; mE 
var-"&split var"; 
tmp-compress (put (y,24.8)); 
output; 
end; 
if last then do; 
code-"else if 
"||compress (tmp)||"«-"||compress("&split var.")||" then 
"||compress("grp &split var-")||put( N +1,5.) ||";"; 
| grp var- N +1; E 
var-"&spli t var"; 
tmp-compress (put (y,24.8)); 
output; 
code-"else 
"I|compress("grp &split var-")||put( N 42,5.) ||";"; 
|» grp var- N42; | — 
var-"&split var"; 
output; 
end; 
run; 
proc append base-&bin code interval data-cde &split var; 
run; iB m B i 
Send; 
Selse $do; 
data drop var numeric; 
var="&split war. 
run; B 
proc append base-&bin drop var numeric data-drop var numeric; 
run; mE mE 
Send; 
Send; 
$let dsid-$sysfunc(open(&bin code interval)); 
$if &dsid»0 SGH $do; 
data null 
set ' gin code interval; 
file &split code pth lrecl-32767; 
put code; 
run; 
Send; 
$let dsid-$sysfunc (close(&dsid)); 
$mend; 


632 计算 


分 组 变量 的 WOE 值 和 IV 值 


算 分 组 后 的 WOE (Weigh Of Evidence) 和 IV 值 (Information Value) 值 ， 以 WOE 值 作为 新 的 变量 值 ， 


IV 值 则 体现 了 变量 对 y 的 预测 能 力 。WOE 和 IV 值 是 信 


息 论 中 体现 信息 量 的 指标 ， 


如 表 6-3 展 示 的 两 个 
高 于 未 销 卡 客户 ; 


变量 为 例 ， 


粗 分 类 


变量 


娱乐 
& TX 
其 他 
JE. E 
超市 、 


合计 


、 酒 店 


IV 值 则 体现 了 预测 变 
具有 数 百 个 时 ， 建 议 通过 IV 值 筛选 50 个 左右 的 变量 进入 建 模 环节 


介绍 WOFE 和 |IV 值 和 


经 常 作为 筛选 显著 变量 的 依据 。 上 节 提 到 的 类 别 变 量 粗 分 


叶 计 算 方法 。 第 一 列 是 两 个 


量 对 目标 客户 的 区 分 


能 力 ， 即 变量 的 显著 性 ， 


6-9 粗 分 类 (类别) 


> 类 ， 


变量 的 粗 分 


12 个 月 月 均 消 费 次 数 R12m_ Avg Cns Cnt 


yr 
ooo | 200 [iow | som | iom | — | — 


能 够 简化 模型 ， 并 提高 计算 效率 ， 但 会 降低 模型 的 可 解释 性 。WOE 和 IV 值 的 计算 代码 如 下 : 


endi 
4 —5 
6 — 10 
114 


合计 


需要 指出 的 是 ，WOFE 变 量 


代码 清单 6-2 WOE 和 IV 值 的 计算 代码 CA) 


MACRO WOE IV LST(DEV,WOE TABLE, target); 

data  &WOE TABLE; 

length Var $40. VAR LST $40. Var GRP $40. TOT 
stop; 

run; 


PROC CONTENTS DATA-&DEV 


EP-NAME 


OUT-CONTENT tmp (KE 
RUN; 


data CONTENT; 
set CONTENT tmp; 


run; 
proc sql noprint; 

select count(*) 
from content 


quit; 


data null ; 
set CONTENT; 
$do i-1 $to &N VAR; 
if N -&i then do; 
m call 
Symput ("FCT VAR &i" ncompress 
'| [compress (name) | | ') ') ; 
en 
zend; 
run; 
$macro FCT var; 
$do i-1 $to &N VAR; 
&&FCT VAR &i 
zend 
mend; 


data %FCT var; 
set &DEV; 
if &target-1 then do; 
nresp = 1; 
resp = 0; 


END; 

run; 

$do j-1 $to &n var; 
data null ; 


set CONTENT; 

if N -&j then do; 

call symput(' FCT VAR',name); 
stop; 

end; 

run; 


proc summary noprint data=f 
class &FCT VAR; 
var resp nresp; 


into:n var 


(Fo'[[name) ||" 


&FCT VAI 


;)) NOPRI 


NT; 


R missing; 


freq. 


output out-fct2 sum-sum resp sum nresp; 

run E E 

data fct3; 

retain &FCT | VAR; 

label sum resp = "GOOD" sum nresp = "BAD" 

if n -1 then set 

set fct2(where - ( type = 1)); 

if sum resp = 0 then PERCGOOD-O0.5/TOTALGOOD; 
else PERCGOOD-sum resp/TOTALGOOD; 


if upcase (substr (name,1,3))^-'GRP' then delete; 


"G+ 


IV sum resp sum nresp 


(keep-&target nresp resp 


B" badrate - 


"BAD RAT 
fct2 (keep-sum resp sum nresp rename- (sum resp-TOTALGOOD s 


可 以 先 对 原始 


> 类 ， 


DL [e] Us 
E(S)"; 


变量 计算 WOE 值 ， 


_freq badrate TOTALGOOD TOTAL 


um nresp-TOTALBAD)); 


其 他 各 列 是 WOE 的 计算 过 程 。 
一 般 来 说 ，|IV 值 在 0.1 ~ 0.5 之 间 表 明 变 量 


BAD PI] 


变量 的 WOE 和 TV 值 计 算 


ERCGOOD PI 


ERCI 


然后 应 用 PROC SPLIT 过 程 步 


销 卡 人 数 | 未 销 卡 | RME | GAP- 


购物 类 型 Buy Type 


BAD ODDS WOE 


LN(D1/D0) 


行 粗 分 类 


从 表 可 见 ，WOFE 随 销 卡 率 增加 ，WOE> 0 表明 这 个 
与 目标 有 一 定 的 相关 性 ， 如 果 变 量 


较 少 ， 


WOE- 


s 
[mo zo [oo0 | sw | wo | | — 


， 再 计算 WOE 值 。 


区 间 内 的 销 卡 客户 边际 占 比 


也 可 降低 对 IV 值 的 要 求 。 当 预测 变量 


IV= 
GAP*WOE 


0.078 
0.001 
0.012 
0.003 
0.153 
0.247 


0.126 
0.023 
0.055 
0.003 
0.113 
0.320 


if sum nresp = 0 then PERCBAD-0.5/TOTALBAD; 
else PERCBAD-sum nresp/TOTALBAD; 

BADRATE = sum nresp / freq ; 
ODDS-PERCGOOD/PERCBAD; i 

WOE = log (ODDS); 
V= (PERCGOOD-PERCBAD) *WOE; 
format badrate 10.4; 

drop TYPE ; 

run; i 


proc sql noprint; 

select sum(IV) into: TOT IV 
FROM FCT3; 

QUIT; 
D 


ATA FCT4 (DROP=&FCT VAR); 
LENGTH Var VAR LST Var GRP $40 TOT IV 8; 
SET FCT3; 

VAR-"&ECT VAR"; 


Var GRP-COMPRESS ("&FCT VAR") | | COMPRESS (&FCT VAR); 
^. TOT IV-&TOT i 
VAR LST- &FCT ` VAR; 

RUN; 


I 


有 


PROC APPEND BASE-&WOE TABLE DATA-FCTA; RUN; 
Send; 
SMEND; 


6.3.3” 共 线性 检验 


Logistic 回 归 算 法 本 身 并 不 检验 变量 间 的 共 线 性 ， 但 这 又 的 确 会 影响 模型 的 稳定 性 ， 但 经 过 上 述 两 个 步骤 重 构 的 Woe_x 变 量 ， 可 以 像 线性 回归 那样 检验 共 线 性 。 方 差 膨 胀 因 子 (Variance Inflation 
Factor, VIF) 是 最 常用 的 共 线 性 诊断 指标 ， 对 于 每 个 预测 变量 Woe_x， 其 VIF 的 计算 公式 为 : VIF=1/ (1-Rsquare) ， 其 中 Rsquare 是 以 Woe_x 作 为 目标 变量 对 其 他 变量 Woe_x 作 回归 分 析 的 结果 。 
Rsquare 是 回归 模型 的 重要 评价 指标 ， 原 理 不 多 介绍 ， 只 需 记 住 一 点 : Rsquare 接 近 1， 意 味 着 Woe x 越 可 以 由 其 他 变量 Woe xi 计算 得 到 ; 与 此 一 致 ， 某 个 变量 Woe x 的 VIF 越 大 ， 则 它 与 其 他 变量 之 间 的 共 

应 用 SAS 中 的 Proc Reg 过 程 步 可 以 计算 变量 的 方差 膨胀 因子 VIF， 代 码 如 下 。 由 于 仪 检验 变量 共 线 性 不 训练 模型 ， 目 标 变量 可 任意 设 定 ， 只 要 后 面 列 出 所 有 预测 变量 即 可 。COLLIN COLLINOINT 是 检 
验 共 线性 的 另 一 个 指标 一 一 条 件 因 子 ， 这 里 不 多 介绍 。 


代码 清单 6-3 ” 共 线 性 诊断 (方差 膨胀 因子 计算 ) 代码 


Proc Reg Data=Train Woe; 

del Evg . Flg-Woe . m Woe Gen .. 
/ VIF COLLIN COLLINOINT 
Run; 


经 验 判断 方法 表明 : 当 0<VIF<5， 变 量 间 存 在 较 弱 的 共 线 性 ; 当 5<VIF<10， 人 存在 较 强 的 共 线 性 ; 当 VIF>10， 人 存在 严重 的 共 线性 ， 一 般 要 求 VIF 小 于 5。 通 常 根据 VIF 从 大 到 小 逐个 剔除 变量 ， 重 复 运 行 
上 面 的 代码 ， 直 到 所 有 变量 的 VIF 都 降 到 5 以 下 ， 除 非 明确 知道 哪些 变量 存在 共 线性 ， 可 以 一 次 性 剔除 。 图 6-6 所 展示 的 是 从 上 述 代码 输出 中 截取 的 部 分 变量 ， 就 这 些 变量 而 言 不 存在 共 线性 问题 ， 如 果 变 量 
较 多 且 对 共 线 性 要 求 特别 挑剔 ， 可 以 先 删除 VIF 最 高 且 t 值 (反应 变量 的 显著 性 ) 较 小 的 变量 (比如 Woe_R12m_Avg_Cns_ Cnt) ， 然 后 再 运行 上 述 代 码 。 


2 T hr IB E 
SB EX . 5x 
(hri w% tP E 
0.31913 0.00353 90.52 «.0001 
-0.05462 0.00881, -6.20 «.0001 1.09203 
-0.07309 0.00981 -7.45 «.0001 1.04473 
-0.06545 0.02422 -2.70 0.0069 4.35835 
-0.04540 0.00802 -5.66 «.0001 1.49563 
-0.12803 0.00272. -47.11 «.0001 1.48709 
0.00964 0.00714 1.35 0.1773. 1.41876 
-0.08100 0.02267. -3.57 0.0004 4.45524 
-0.08605 0.00663 -12.99 «.0001 1.39057 
-0.10853 0.00421 -25.78 <.0001 1.49295 
-0.13849 0.00542 -25.54 <.0001 1.12922 


变量 

Intercept 

WOE CSR DUR 

WOE OVS. _CNS AMT 

WOE _ R12M _AVG_CNS_CNT 


ID 
Œ 
d 


LE TR... 5. E 1 "M HO i mE wu uu A 


WOE R1M TRD3 CNS AMT 
WOE R3M AVG CNS AMT 
WOE. R3M MAX CSH AMT 
WOE R6M CLS NBR 

WOE R6M AVG RDM PTS 
WOE R6M MAX CSH AMT 
WOE TOTAL CALL NBR 


图 6-6” 共 线性 检验 的 输出 结果 (部 分 变量 ) 


6.3.4 ”模型 训练 : 显 阁 性 检验 

经 过 数据 预 处 理 和 共 线 性 检验 ， 得 到 一 组 与 目标 变量 有 一 定 相关 性 、 彼 此 独立 目 分 布 经 过 优化 的 候选 变量 ， 一 般 会 保留 50 ~ 100 个 ， 接 下 来 就 是 挑选 显著 变量 训练 模型 。 这 里 使 用 SAS 的 Proc Logistic 过 
程 步 实现 ， 代 码 及 注释 如 下 。 

经 过 显著 性 检验 ， 通 常 保留 10 个 左右 最 为 显著 的 变量 


代码 清单 6-4 ”显著 性 检验 代码 


pt Logistic data-train woe out-train stat; 

/ "WJHSAS Proc Logistic 过 程 步 ， 并 指定 数据 集 train woe， 变 量 已 经 过 粗 分 类 转化 为 woe 变 量 ， 模型 参数 输出 到 train stat 表 */ 
Evt zi. en ) = &Var Woe. / selection-stepwise 

1e-20.05 sls- 
/* SERE MH RERO Ra 设 定 sle 和 sls 两 个 检验 指标 ，sle<0 .05 时 变量 进入 模型 ，sls<0.05 时 变量 留 在 模型 中 */ 


run; 


Proc Logistic 过 程 步 运行 之 后 ， 会 输出 显著 变量 ( 见 图 6- 7 前半 部 分 表 ) 以 及 预测 概率 和 观测 响应 的 关联 指标 ( 见 图 6-7 后 半 部 分 表 ) . ER: 估计 值 是 模型 中 每 个 变量 的 参数 ， 最 后 1 列 p 值 是 变量 的 显 
著 性 水 平 ， 留 在 模型 中 的 全 部 低 于 0.05; FR: 一 致 部 分 所 占 百 分 比 ， 指 模型 是 否 足够 准确 地 预测 了 训练 集 本 身 的 数据 ， 越 接近 1， 则 预测 概率 越 能 区 分 目标 变量 是 “0” 还 是 “1”， 这 里 为 89.7%， 表 示 
89.7% 的 客户 被 准确 预测 了 。 


本 Wald 
自由 度 "m Ex 卡 方 | 
1.1598 0.0353 1080.8705 

| x 0.0989 14.8707 

WOE OVS CNS _AMT | 0.6421 0.1089 34.1216 
WOE -R12M- AVG CNS CNT - | 0.65853 0.2581 7.0682. 
WOE RIM TRD3 CNS AMT - | 02429 00758 — 10.2652 
WOE ROM. AVG ， CNS AMT — | 11586 00336 1186 0609. 
WOE R3M MAX CSH AMT | 4.1974. 0.0731 7 2858 
WOE REM CLS NBR | 11260 02585 18.9701 
WOE REM AVG RDM PTS | 0.7245 0.0754 92.3894 
WOE REM. MAX CSH. "AMT | | 10044 00481 436.8757 
| | 18669 0.0879 363.2731 


—RISAW ASE | 89.7 Somers D | 0.796 
M^—3 B Bh 5t 10.1 Gamma — 0.798 
tn iB Or EE | 0.2 Tau-a | 0.254 
31 | 15381981 c 0.898 


图 6-7 Proc Logistic 的 输出 : 显著 变量 和 一 致 对 占 比 


统计 指标 仅 有 反映 了 模型 对 训练 集 数 据 自身 的 拟 合 情 况 ， 模 型 是 否 能 够 准确 预测 验证 集 数据 以 及 接 下 来 不 断 前 推 的 时 间 窗 数据 ， 则 需要 根据 实际 打分 。 下 面 介绍 更 具 实 际 意义 的 评估 指标 。 


6.3.5 ”模型 评估 


1. 应 用 模型 为 验证 集 客户 打分 


训练 模型 的 目的 是 为 了 对 客户 进行 打分 ， 预 测 销 卡 概率 。 模 型 就 是 公式 logit (Evt_Flg) =1.1598+0.3815*Woe_Csr_Dur+…， 按 公式 里 的 变量 准备 好 数据 ， 应 用 公式 计算 出 结果 再 转换 为 概率 打分 ， 就 
是 预测 了 。 推荐 两 种 最 常用 的 打分 方法 。 


方法 1: 把 训练 集 保 存 下 来 ， 只 保留 显著 变量 。 应 用 的 时 候 按照 这 个 样式 准备 好 数据 宽 表 ， 目 标 变量 全 部 设置 为 缺失 值 。 运 行 Proc Logistic 过 程 步 同 时 用 “Score” 进 行 打分 ， 由 于 无 需 检验 变量 的 显著 


性 ， 设 定 “selection=none” , 
这 里 我 们 应 用 Sta_Dte= “2015-1-31” 的 验证 集 数 据 ， 对 变量 优化 分 组 并 计算 Woe 值 ， 然 后 将 目标 变量 设置 成 缺失 ， 与 训练 集 数 据 Train_ Woe 放 在 一 起 构成 表 Train Woe2。 运 行 如 下 代码 : 


代码 清单 6-5 ”数据 打分 代码 


Proc pow data= train | Woe out=train stat; 
Model Evt Flg (Event-'1') = &Var Woe. / selection-none; 
Score data- train woe2 out- score p; 


打分 结果 如 表 6-4 所 示 ，sta_Dte= “2015-1-31” 对 应 的 记录 就 是 应 用 模型 对 验证 集 客 户 做 的 打分 结果 。 


表 6-4 模型 打分 结果 


Csr ID 
1001 
1002 
1003 
1004 
1005 
1006 


Sta Dte 
2015/1/31 
2015/1/31 
2015/1/31 
2015/1/31 
2015/1/31 
2015/1/31 


1001 
1002 
1003 
1004 
1005 
1006 


2014/12/31 
2014/12/31 
2014/12/31 
2014/12/31 
2014/12/31 
2014/12/31 


Evt Flg 


F Target | Target 


方法 2: 上 面 方法 的 问题 是 每 次 应 用 都 需要 先 做 数据 预 处 理 ， 且 打分 方式 难以 部 署 到 应 用 系统 。 所 以 更 好 的 方法 是 输出 打分 代码 ， 一 组 if then 打 分 规则 ， 建 立 原始 建 模 变量 和 目标 变量 间 的 关系 。 格 式 


如 下 ， 应 用 这 组 规则 可 直接 对 验证 集 数据 打分 。 


代码 清单 6-6 If then 打 分 规则 示例 (模型 ) 


lnp-20; 

if .«Total call nbr«2.5 then lnp-lnp-t-7.9874; 

else if 2.5«-Total call nbr«3.5 then lnp=lnp+-1.03] 
else if 3.5«-Total call nbr«4.5 then lnp-lnp*0.0587; 
else if 4.5«-Total call nbr«5.5 then lnp-lnp*0.3713; 
else if 5.5«-Total call nbr«6.5 then lnp-lnp*1.1691; 
else if 6.5«-Total call nbr«7.5 then lnp-1np41.2862; 
else if 7.5«-Total call nbr then lnp-1np42.2826; 
lnp-1np*1.1598; 

pl-l-exp (1np)/ (1+exp (1np)); 


2. 模 型 的 4 个 评估 指标 


无 论 哪 种 方法 ， 最 终 都 可 对 验证 集中 的 客户 进行 


9; 


打分 ， 预 测 出 接 下 来 的 销 卡 (响应) 概率。 模型 不 能 完 


全 准确 地 区 分 出 响应 客户 ， 而 是 给 响应 客户 总 体 更 高 的 打分 ， 


因此 评估 不 应 针对 单个 客户 ， 而 应 


该 针对 客 群 。 对 于 验证 集 客户 ， 根 据 预 测 概率 P_1 从 大 到 小 排序 ， 将 全 部 客户 等 分 为 若干 组 ， 然 后 计算 每 组 客户 的 实际 响应 率 和 平均 预测 概率 ， 并 计算 KS 等 相关 指标 ， 代 码 如 下 ， 表 6-5 所 示 是 计算 结果 。 


代码 清单 6-7 ”模型 评估 指标 的 计算 代码 


data valdt; 

set score p; 

where sta dte-'31jan2015'q; 
run; i 


$macro Fit(in,out,grp cnt,pred var,act var); 
data work.ttl; 

set &in; 

run; 

data null ; 

set work.ttl nobs-obs ; 

call symput("Base",obs/&grp cnt); 
stop; 

run; 

proc sort data-work.ttl; 

by descending &pred var; 


run; 

data work.ttl; 
N-N ; 

set work.ttl; 


format Grp2 4.0; 
Grp2-INT ( (N-1) / &base) ; 


run; 

proc means data-work.ttl nway noprint; 

class  Grp2 ; 

output out-&out mean (&pred var &act var)-pred evt actual evt; 
run; i E 
$mend; 

SFit(valdt,fit v,20,p 1l,evt flg); 

*indicators; 

proc sql; 

select sum( freq *actual evt) into:varl from fit v; 

select sum( freq - freq *actual evt) into:var2 from fit v; 
quit; 

data tmpl; 

set fit v; 

resp- freq *actual evt; 

nonresp- freq -resp; 


retain cul resp 0; 

cul resp-cul resptresp/é&varl.; 

retain cul nonresp 0; 

cul nonresp-cul nonresptnonresp/&var2.; 
ks-cul resp-cul nonresp; 

retain base 0; 

base-base-*0.05; 

lift-cul resp/base; 

run; B 


6-5 ”模型 评估 指标 


Decile UFT 


Response | NonResponse | CulResp% | CulNonResp?^6 Benchmark 


Si [E Ia iptll pjo 
到 | 天 于 站 | 响应 数量 | 未 响应 数量 | 累积 响应 率 | 累积 未 响应 率 加 不 使 用 模型 


l Á 5% 4.62 
.5% 15% 4.01 

l 20% 3.43 
17.7% 61:57 30% 2.64 

23.4% 35% 2.43 
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表 中 包含 了 两 条 曲线 和 两 个 统计 指标 ， 从 多 个 角度 评估 模型 的 准确 性 、 区 分 度 和 提升 度 。 


图 6-8 所 示 是 拟 合 曲线 (AE) 和 ROC 曲 线 ( 右 图 ) 。 将 每 组 客户 的 平均 预测 概率 和 实际 响应 率 绘制 出 来 ， 就 是 拟 合 曲线 ， 能 够 直观 展示 模型 的 准确 性 。 解 读 方法 : 两 条 曲线 重 晋 ， 说 明 总 体 预测 偏差 
小 ;曲线 陡峭 下 降 ， 说 明 模 型 区 分 能 力 强 ， 能 够 将 潜在 销 卡 客户 圈定 在 比较 小 的 范围 内 (可 以 更 多 的 节省 营销 成 本 ) ; 曲线 平滑 ， 说 明 模 型 较为 稳定 ， 无 过 拟 合 问题 。ROC 曲 线 即 累计 边际 响应 率 ， 体 现 模 
型 覆盖 响应 客户 的 能 力 。 假 设 将 全 部 客户 随机 的 等 分 20 组 ， 那 么 每 组 将 涵盖 5% 的 销 卡 客户 ， 模 型 的 作用 就 是 通过 评分 将 销 卡 客户 集中 到 打分 最 高 的 少数 几 组 内 。 图 中 所 示 ， 打 分 最 高 即 最 可 能 销 卡 的 5 组 客 
户 ( 占 总 量 的 25%) ,覆盖 了 75% 实 际 销 卡 的 客户 ， 换 言 之 ， 只 要 针对 这 25% 的 客户 进行 挽留 ， 就 能 获得 对 全 部 客户 挽留 75% 的 效果 ， 而 成 本 却 节 省 了 75%。 


啊 应 率 /概率 % "-" | We] Ju; 34 % 53 gH 
一 实际 -= -预测 ex X* 一 随机 分 布 


100 100 响应 
80 80 
60 60 
40 40 
20 20 
0 = 0 


0.2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20 
按 预 测 概率 从 高 到 低 等 分 20 组 
图 6-8 ”预测 模型 的 拟 合 曲线 和 ROC 曲 线 


两 个 统计 指标 是 KS 和 LIFT。KS= 累 计 响 应 率 -累计 未 响应 率 ， 用 于 量化 评估 模型 的 区 分 度 ， 通 常 使 用 20 组 中 最 大 的 那个 值 。 根 据 经 验 ，KS 介 于 30% ~ 60% 说 明 模 型 具有 较 强 的 区 分 度 ， 能 够 将 销 卡 客户 
区 分 出 来 ,该 例 KS=62.9%。 如 果 KS 过 高 ， 通 常 以 60% 为 参考 ， 需 要 检查 变量 的 设计 是 否 存 在 问题 ， 或 者 应 用 更 多 的 验证 集 检查 过 拟 合 情 况 。Lift 体 现 模型 的 提升 度 ， 即 ROC 曲 线 中 两 个 指标 的 比值 ， 通 常 特 
指 第 一 组 的 最 大 值 ，Lift 指 相 比 不 使 用 模型 ， 应 用 模型 能 够 最 大 限度 地 缩小 目标 客户 分 布 范围 的 能 力 。 该 例 Lift 为 4.6， 说 明 打 分 最 高 的 一 组 客户 命中 率 是 不 使 用 模型 的 4.6 倍 。 


6.4 潜在 客户 价值 预测 : 两 阶段 建 模 ; 


预测 数值 ， 是 典型 的 回归 问题 ， 线 性 回归 是 最 党 用 的 算法 。 这 里 介绍 Logistic 回 归 和 线性 回归 相 结 合 的 两 阶段 法 ， 先 用 Logistic 回 归 预 测 客户 为 高 价值 的 概率 Ph， 再 将 Ph 作为 一 个 预测 变量 与 其 他 变量 X 
一 起 建立 线性 回归 模型 。 实 践 证 明 ， 两 阶段 法 可 大 幅 提 高 预测 的 准确 度 。 


65 WD: 卷 异 化 言 销 服务 的 基础 

两 个 模型 建立 之 后 ， 已 经 可 以 预测 未 来 哪些 客户 更 可 能 流失 及 其 潜在 价值 高 低 ， 需 要 做 的 是 识别 最 值得 挽留 的 客户 ， 有 效 地 分 配 营销 资源 。 在 客户 服务 和 经 营 成 本 不 变 的 情况 下 ， 通 过 对 服务 资源 调整 
结构 和 重新 配置 ， 对 不 同 流失 倾向 和 价值 的 客户 提供 差异 化 营销 服务 ， 是 较为 肥效 的 策略 。 

细 分 ， 是 差异 化 策略 的 基础 ， 对 于 2 个 以 上 维度 的 细 分 通常 采用 聚 类 算法 实现 。 当 客户 量 (观测 数 ) 较 少 时 ， 可 以 采用 谱系 聚 类 ， 否 则 推荐 使 用 Kmeans 算 法 ， 数 据 输 入 格式 如 表 6- 7 所 示 。 


Kmeans 算 法 的 核心 目标 是 将 每 一 条 观测 (这 里 为 客户 ) 按照 指定 维度 划分 归 类 ， 每 一 类 内 的 观测 尽 可 能 相似 ， 类 之 间 的 观测 差异 尽 可 能 大 。 关 于 算法 的 原理 和 步骤 ， 可 查阅 相关 书籍 ， 实 际 应 用 过 程 
中 ，Kmeans 算 法 通常 包括 以 下 步骤 : 


表 6-7 客户 未 来 半年 销 卡 概率 和 潜在 价值 (Pred_dat) 


ll 


1. 异 常 值 处 理 


Kmeans 算 法 对 于 特别 大 的 异常 值 和 极 值 非常 敏感 ， 其 结果 是 将 90% 以 上 的 观测 都 聚 为 一 类 ， 没 有 区 分 开 。 较 为 肥效 的 处 理 方法 是 直接 剔除 少数 异常 值 (如 果 聚 类 的 目的 就 是 发 现 异常 值 ， 另 当 别 
， 或 者 根据 分 位 数 ， 将 少量 极 值 蔡 换 为 较 小 的 分 位 数 ， 去 除 干扰 ， 但 不 会 影响 聚 类 的 有 效 性 。 


总 


Tb 
2. 相 关 分 析 
变量 之 间 存 在 高 度 相关 性 ， 意 味 着 他 们 体现 的 是 同一 类 信息 ， 而 聚 类 是 为 了 从 不 同 信息 维度 区 分 个 性 和 共性 。 因 此 ， 聚 类 的 各 个 维度 不 宜 存在 相关 性 ， 需 要 尽 可 能 减少 维度 数量 ， 让 聚 类 结果 更 直观 。 
3. 主 成 分 分 析 或 因子 分 析 


承接 上 一 步 ， 当 发 现 变量 间 存 在 相关 性 时 ， 可 以 直接 删除 其 中 一 个 变量 ， 主 成 份 分 析 和 因子 分 析 则 提供 了 相应 的 技术 手段 。 同 时 ， 当 变量 较 多 时 ， 这 两 类 分 析 可 以 起 到 降 维 作用 ， 在 少数 几 个 综合 指标 


或 维度 的 基础 上 进行 聚 类 ， 结 果 会 更 易 懂 。 聚 类 的 维度 应 越 少 越 好 ， 有 时 可 以 先 对 变量 进行 聚 类 ， 然 后 针对 每 一 类 变量 分 别 聚 类 。 
4 .数据 标准 化 


这 是 Kmeans 算 法 的 必要 步骤 ， 哪 些 观 测 应 该 聚 为 一 类 取决 于 变量 间 的 距离 ， 欧 几 里 德 距 离 或 马 氏 距离 都 可 以 ， 但 如 果 变 量 的 量 纲 不 同 ， 显 然 不 能 放 在 一 起 计算 距离 。 例 如 概率 P_1 和 潜在 价值 Pred_v 两 
个 变量 ， 直 接 放 在 一 起 计算 距离 ，P_1 可 以 忽略 。 


5. 聚 类 
单纯 的 聚 类 算法 只 是 计算 观测 之 间 的 距离 ， 按 照 设 定 的 聚 类 数量 ， 通 过 不 断 地 迭代， 将 距离 接近 的 观测 归 为 一 类 。 当 然 ， 聚 类 是 否 合理 ， 需 要 解读 关键 的 评价 指标 。 聚 类 过 程 的 参数 含义 如 表 6-8 所 示 。 
对 于 该 例 ， 仅 有 两 个 变量 上 且 均 有 明确 的 业务 含义 ， 可 以 直接 从 第 4 步 开 始 。 代 码 及 参数 含义 如 下 : 


代码 清单 6-9 ”数据 标准 化 代码 


proc standard data-pred dat out-tmpl mean-0 std-1; 
var p 1 pred v; 


run; 
proc fastclus data-tmpl summary maxc-4 maxiter-99 
outseed-seed replace-random random-1 
out-tmp2 outstat-stat; 
var p 1 pred v; 
run; 
表 6-8 聚 类 过 程 的 参数 含义 
参数 含义 
proc standard SAS 提供 的 标准 化 过 程 步 
data=pred dat 指定 数据 集 ， 见 表 6-2 


out-tmpl 标准 化 后 的 数据 输出 到 指定 的 表 中 
mean=0 std-1 标准 化 的 方法 : 0 为 均值 、1 为 标准 差 


varp 1 pred v 指定 要 进行 标准 化 的 变量 名 称 

proc fastclus SAS 提供 的 快速 聚 类 过 程 步 ， 实 现 Kmeans 算法 

maxc=4 设 定 聚 类 数量 ， 此 处 为 4 (Kmeans 贷 法 需要 人 工 指定 聚 类 数量 ) 
maxiter-99 WOEBCOKGRIQAR, "AS uEDRN SACS, We ET 
outseed-seed 将 聚 类 汇总 结果 输出 到 指定 表 中 


replace=random random-1 初始 种 子 〈 类 中 心 ) 的 选择 方法 ， 这 里 随机 选择 
聚 类 结果 输出 到 指定 表 中 ,在 输入 数据 基础 上 增加 一 列 ， 每 条 观测 对 应 的 类 


out-tmp2 编号 

duties 将 聚 类 过 程 中 产生 的 统计 指标 输出 到 指定 表 中 ,包括 均值 、 标 准 差 、 观 测 数 、 
R 方 、 立 方 聚 类 准则 CCC, PSEUDO F 等 ， 用 于 评价 聚 类 效果 

var p 1 pred v 经 标准 化 后 的 用 于 聚 类 的 维度 变量 


运行 上 述 代 码 后 ， 输 出 结果 如 图 6-11 所 示 。 


uu | FASTCLUS ; 
SH-RANDOM 半径 =0 最 大 紧 类 =4 最 大 渤 代 -99 Converge-0.02 


AEREN: 
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立 力 紧 类 准则 = 832003 


图 6-11 聚 类 结果 


1.2645 


主要 通过 四 项 指标 评价 聚 类 的 效果 : 


频数 太 少 的 类 可 能 是 异常 值 或 极 值 ， 频 数 太 多 可 能 没有 充分 划分 。 一 般 要 求 每 一 类 的 频数 占 总 体 的 5% 以 上 。 


2) ERSQ 
近似 期 望 总 体 R 方 。 模 型 总 体 拟 合 度 ， 评 价 类 间 差 异 是 否 够 大 ， 理 想 为 1。 
3) CCC 


立方 聚 类 准则 。 评 价 类 内 相似 性 是 否 够 大 ， 一 般 要 求 大 于 2。 
4) PSF 
伪 F 统 计量 。 评 价 聚 类 数量 是 否 合理 ， 是 否 越 大 越 好 。 


显然 ， 这 些 指标 很 大 程度 上 取决 于 预先 设 定 的 聚 类 数量 需要 指定 不 同 的 聚 类 数量 ， 多 次 聚 类 ， 对 比 这 些 指标 ， 最 终 选 择 比较 合理 的 结果 。 实 际 上 ， 聚 类 并 不 需要 追求 指标 上 的 最 优 解 ， 只 要 得 到 
合理 的 细 分 即 可 ， 聚 类 的 数量 更 多 依据 于 业务 策略 的 需要 。 


总 之 ， 到 此 就 实现 了 如 图 6-2 所 示 的 客户 细 分 ， 这 里 以 划分 4 类 作为 示例 ， 但 实际 工作 中 要 参照 营销 策略 的 详细 程度 。 具 体 营销 服务 策略 的 制定 需要 营销 、 客 服 、 科 技 等 多 个 部 门 合作 ， 涉 及 财务 预算 、 
成 本 核算 与 分 摊 等 多 项 内 容 ， 不 在 本 章 范 畴 内 ， 这 里 不 表 歼 述 。 


6.6 小 结 
反 欺 诈 通 常 包括 两 类 : 贷款 申请 阶段 的 反 欺 诈 和 贷 后 交易 过 程 的 反 欺 许 ， 对 于 金融 企业 来 说， 前 者 的 欺诈 风险 通常 存在 于 新 客户 ， 引 进 各 方面 的 外 部 数据 用 于 建立 欺诈 黑 名 单 和 评分 模型 非常 关键 ， 而 
建 模 方法 和 过 程 与 文中 内 容 一 致 。 


线性 回归 和 Logistic 回 归 是 最 常用 的 两 种 预测 方法 ， 分 别 用 于 预测 连续 数值 和 事件 发 生 的 概率 。 算 法 本 身 和 模型 的 训练 过 程 并 不 复杂 ， 复 杂 的 是 前 期 的 数据 预 处 理 ， 从 一 定 程 度 上 来 说 这 决定 了 模型 拟 合 
的 质量 。 当 然 ， 数 据 预 处 理 是 可 选项 ， 如 果 对 模型 效果 没有 特别 的 追求 ， 建 模 仅 需 三 步 : 准备 数据 、 模 型 训练 即 显 著 性 检验 和 效果 评 佑 。 


有 两 个 误区 值得 注意 : 因果 倒置 和 拘泥 于 统计 指标 。 即 使 很 资深 的 分 析 人 员 也 容易 犯 因果 倒置 的 错误 ， 用 “ 果 ” 来 预测 “ 因 ”， 例如 “高 价值 的 客户 ， 客 户 等 级 高 ， 因 此 认为 客户 等 级 是 客户 价值 预测 


模型 的 显著 变量 ”， 实 际 上 客户 等 级 根据 客户 价值 划分 ， 价 值 高 的 客户 等 级 就 高 ， 因 此 客户 价值 是 因 ， 客 户 等 级 是 果 ， 如 果 用 客户 等 级 来 预测 客户 价值 就 犯 了 因果 倒置 的 错误 。 同 样 一 个 例子 ，“ 发 达 国 家 
都 拥有 大 量 的 私人 轿车 ， 为 了 缩短 与 发 达 国家 的 差距 ， 我 国 也 应 该 大 量 发 展 私人 轿车 ”这 一 论述 也 犯 了 因果 倒置 的 逻辑 错误 ，“ 国 家 发 达 ” 是 因 ，“ 私 家 车 多 ”是 果 ， 并 不 能 通过 增加 私家 车 让 国家 发 达 起 
来 。 因 此 ， 相 关 性 分 析 和 关联 分 析 可 以 不 考虑 因果 ， 但 预测 模型 必须 考虑 熟 因 熟 果 ，X 是 因 ，Y 是 果 。 通 过 时 间 窗 将 X 和 Y 的 发 生 顺 序 区 分 开 来 ，X 发 生 在 先 ，Y 发 生 在 后 ， 可 在 很 大 程度 上 避免 因果 倒置 ， 但 
对 于 模型 的 显著 性 变量 仍 需 要 认真 分 析 对 预测 真正 起 作用 的 原因 是 什么 ， 让 模型 站 得 住 脚 。 另 外 ， 在 模型 训练 过 程 中 ,会 有 大 量 的 统计 学 指标 从 各 个 角度 评估 变量 及 模型 的 效果 ， 一 定 要 记 住 ， 这 些 指标 仅 
反映 了 模型 对 训 | 练 集 本 身 的 拟 合 情 况 ， 模 型 真正 的 效果 体现 在 能 否 准 确 、 可 靠 、 稳 定 地 应 用 于 预测 ， 所 以 直接 对 比 预 测 结 果 和 实际 值 是 最 好 的 评估 方法 。 


特别 声明 ， 本 案例 数据 仅 为 介绍 方法 而 设计 ， 并 非 真实 数据 ， 结 论 不 可 直接 使 用 。 


